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内 容 简 介 


本 书 属于 高 等 学 校 各 个 专业 研究 生 和 本 科 生 的 “信息 检索 素养 课程 "教学 通用 教材 ,内 容 包括 三 大 部 分 :第 一 部 分 
“信息 检索 素养 基础 知识 篇 ”, 第 二 部 分 “信息 检索 素养 基本 原理 篇 "和 第 三 部 分 “信息 检索 素养 实践 应 用 篇 ", 共 13 章 
内 容 。 本 书 较 好 地 把 现代 信息 检索 素养 知识 的 基础 性 与 前 沿 性 、 原 理性 与 实践 性 ,全面 性 与 主题 性 、 引 导 性 与 启发 性 
进行 了 贯通 与 融合 。 在 基于 大 量 信息 检索 专题 图表、 实例 及 其 数学 理论 依据 进行 充分 阐述 和 说 明 的 基础 上 ,突出 国 
内 与 国外 、 理 论 与 实践 紧密 结合 的 信息 检索 素养 教学 要 求 。 考 虑 到 不 同 专业 和 不 同 层 次 学 生 的 实际 教学 需要 ,教学 内 
容 组 织 依据 循序 渐进 和 主题 性 教学 相 结合 的 原则 ,可 以 适当 选用 部 分 章节 组 织 教学 。 例 如 ,针对 计算 机 学 科 专 业 、 图 
书 情报 学 专业 ,信息 管理 专业 本 科 生 和 各 个 专业 的 研究 生 层 次 学 生 , 可 以 把 第 二 部 分 "信息 检索 素养 基本 原理 篇 "作为 
重点 来 组 织 各 个 教学 章节 内 容 。 

本 书 内 容 丰 富 .线索 清晰 .结构 完整 .语言 精练 .主题 鲜明 ,是 高 等 学 校 各 个 专业 研究 生 和 本 科 生 的 信息 检索 素养 教 
学 通用 教材 。 既 可 以 作为 信息 检索 素养 基础 必修 课 教材 ,也 可 以 作为 部 分 专业 和 图 书馆 用 户 教育 的 选修 课 教 材 , 同 时 可 
作为 信息 系统 设计 与 开发 .数据 采集 与 挖掘 .信息 检索 与 咨询 服务 .图书 情报 机 构 等 从 业 人 员 的 学 习 与 培训 参考 用 书 。 
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在 信息 化 社会 越 来 越发 达 的 今天 , 面 对 几 何 级 数 膨胀 的 海量 信息 资源 ,如 何 有 效 地 检 
索 、 获 取 、 评 估 、 传 播 ` 共 享 和 利用 信息 ,成 为 了 每 个 人 重要 的 基本 素养 和 能 力 要 求 ,因为 信 
息 需 求 是 每 个 人 学 习 、 工 作 、 生 活 及 其 社会 活动 中 十 分 重要 而 且 迫 切 的 需求 。 作 为 信息 时 
代 的 大 学 生 , 需 要 重视 信息 检索 素养 的 知识 学 习 与 能 力 培养 。 信 息 检 索 素 养 的 理论 知识 
学 习 与 基本 能 力 形成 ,不 仅 直 接 影响 着 大 学 生 的 在 校 学 业 表现 ,也 较 大 程度 上 影响 着 他 们 
今后 的 学 习 、 工 作 与 事业 发 展 ( 例 如 终身 学 习 、 创 新 创业 等 持续 性 需要 ) 。 

大 学 生 信 息 检索 素养 是 大 学 生 信息 素养 的 核心 内 容 之 一 ,具有 多 学 科 交 叉 融 合 的 特 
性 。 信 息 检 索 起 源 于 图 书馆 学 ,情报 学 的 信息 检索 原理 与 技术 ,早期 直接 服务 于 高 校 图 书 
馆 或 社会 公共 图 书馆 的 信息 检索 用 户 教育 与 技能 培训 , 后 来 广泛 应 用 于 数据 库 研发 与 服 
务 企业 、 搜 索引 擎 等 信息 服务 产业 ,在 当今 高 速 发 展 的 计算 机 科学 、 软 件 工 程 、 网 络 工程 、 
通信 工程 、 管 理学、 应 用 数学 、 统 计 学 、 语 言 学 等 多 学 科 交 又 融合 的 基础 上 ,信息 检索 在 数 
据 挖掘、 大 数据 处 理 等 领域 不 断 深化 并 发 挥 着 日 益 强 大 的 潜能 。 大 学 生 信 息 检索 素养 教 
育 正 是 基于 这 种 时 代 背 景 和 学 科 发 展 提出 来 的 ,也 是 面向 大 学 生 的 传统 信息 素养 教育 和 
信息 检索 教育 的 不 断 深 化 与 交叉 融合 的 发 展 结果 。 

基于 循序 渐进 和 主题 性 教学 原则 ,本 书 较 好 地 把 现代 信息 检索 素养 知识 的 原理 性 与 
实践 性 ,全面 性 与 主题 性 .引导 性 与 启发 性 进行 了 贯通 与 融合 。 在 基于 大 量 信息 检索 原理 
与 知识 的 专题 、 图 表 、 实 例 、 案 例 及 其 数学 理论 依据 进行 充分 闭 述 和 说 明 的 基础 上 ,突出 国 
内 与 国外 、 基 础 与 前 瞻 、 知 识 与 技能 紧密 结合 的 信息 检索 素养 教学 要 求 。 考 虑 到 不 同 专业 
和 不 同 层次 学 生 的 实际 教学 需要 ,本 教材 属于 高 等 学 校 各 个 专业 研究 生 和 本 科 生 的 “信息 
检索 素养 课程 ”通用 教材 ,内 容 包括 三 大 部 分 : 第 一 部 分 “信息 检索 素养 基础 知识 篇 ”, 第 
二 部 分 “信息 检索 素养 基本 原理 篇 > 和 第 三 部 分 “信息 检索 素养 实践 应 用 篇 ”。 

本 书 逻 辑 清 晰 ,内 容 丰富 ,结构 完整 。 首 先 , 从 信息 检索 素养 的 基本 概念 内涵、 发 展 
动因 、 特 点 、 核 心 内 容 与 能 力 表现 、 信 息 检索 素养 的 评价 标准 以 及 信息 化 社会 对 大 学 生 的 
信息 检索 素质 需要 出 发 ,进一步 论述 信息 检索 与 知识 产权 、 信 息 检索 与 大 学 生 学 术 不 端 行 
为 、 信 息 检索 基础 知识 、 信 息 检索 方法 与 策略 等 内 容 来 培养 学 生 的 信息 检索 意识 、 信 息 检 
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索道 德 与 信息 检索 基础 。 第 二 ,通过 “信息 检索 的 基础 数学 原理 ”的 引入 ,使 得 信息 检索 有 
了 更 加 严谨 的 逻辑 论证 ,检索 过 程 和 信息 需求 的 本 质 描述 也 更 为 精确 ,从 而 使 得 信息 检索 
的 理论 与 实践 获得 持续 性 的 基础 支撑 。 通 过 “文本 分 类 与 文本 索引 构建 “图 像 信息 检 
索 ”、“ 音 频 信息 检索 ”“ 视 频 信息 检索 ”和 “Web 信息 搜索 一 般 性 原理 ”来 构建 大 学 生 特 别 
是 研究 生 的 信息 检索 基本 原理 知识 。 第 三 ,通过 “搜索 引擎 的 检索 应 用 ”“ 七 大 类 特种 文 
献 信息 资源 检索 ”和 "图书 与 学 术 期 刊 论文 检索 ”的 大 量 实例 与 检索 案例 来 培养 和 锻炼 大 
学 生 的 信息 检索 素养 实践 技能 。 

本 书 教学 内 容 的 规划 、 组 织 与 编著 ,是 在 作者 讲授 研究 生 “ 信 息 检索 原理 与 应 用 ”课程 
和 本 科 生 “大 学 生 信 息 检 索 ” 课 程 的 十 多 年 教学 改革 与 实践 经 验 基 础 上 逐步 积累 形成 的 。 
同时 ,在 教材 编著 过 程 中 ,参考 和 借鉴 了 大 量 国 内 外 专著 、 教 材 .学术 期 刊 论文 .学 位 论文 、 
学 术 观 点 和 典型 网 络 数据 库 检索 平台 等 成 果 , 在 此 一 并 向 他 们 表示 真挚 的 谢意 ! 

本 书 内 容 丰富 、 线 索 清晰 ,结构 完整 .语言 精练 .主题 鲜明 ,是 高 等 学 校 各 个 专业 研究 
生 和 本 科 生 的 信息 检索 素养 教学 通用 教材 。 既 可 以 作为 信息 检索 素养 基础 必修 课 教 材 ， 
也 可 以 作为 部 分 专业 和 图 书馆 用 户 教育 的 选修 课 教材 ,同时 可 作为 信息 系统 设计 与 开发 、 
数据 采集 与 挖 据 、 信 息 检索 与 咨询 服务 、 图 书 情报 机 构 等 从 业 人 员 的 学 习 与 培训 参考 
用 书 。 

在 本 书 编著 过 程 中 ,得 到 桂林 电子 科技 大 学 研究 生 院 领导 及 教学 督导 委员 会 的 关心 
与 支持 ,获得 “2016 年 桂林 电子 科技 大 学 研究 生 教 育 质量 工程 专项 (YXYJ2900)”、 
“2016 年 广西 学 位 与 研究 生 教育 改革 与 发 展 专项 (2016XWYJ12)” 和 “2015 年 广西 高 等 教 
育 本 科教 学 改革 工程 项 目 (2015JGA207)” 的 支持 与 资助 。 本 书 能 够 顺利 出 版 ,感谢 清华 
大 学 出 版 社 的 大 力 支持 与 良好 合作 ,感谢 出 版 社 编辑 们 的 辛勤 工作 与 付出 ! 

本 书 主要 基于 循序 渐进 性 教学 与 主题 性 教学 相 结 合 的 编写 原则 ,在 大 学 生 信息 检索 
素养 的 原理 性 与 实践 性 、 全 面 性 与 主题 性 、 引 导 性 与 启发 性 等 方面 难免 有 疏漏 或 不 妥 之 
处 ,恳请 读者 批评 指正 。 
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第 一 部 分 
信息 检索 素养 基础 知识 篇 


信息 检索 素养 可 以 描述 为 : 善于 根据 问题 分 析 自 身 的 信息 需求 (例如 学 
习 或 工作 需要 ), 进 而 确定 信息 来 源 并 使 用 有 效 的 检索 或 查找 方法 ,及 时 地 获 
取 需 要 的 信息 ;善于 整理 信息 、 分 析 评 价 信息 ,善于 运用 信息 技术 处 理 信息 并 
用 于 解决 问题 ;在 信息 的 获取 、 处 理 、 共 享 、 使 用 的 过 程 中 具有 良好 的 信息 意 
识 、 信 息 道 德 和 强烈 的 社会 责任 心 ,有 一 定 创新 、 协 作 和 服务 精神 。 信 息 检索 
意识 、 信 息 检 索 技 能 和 信息 利用 伦理 道德 是 个 体内 在 信息 检索 素养 的 外 在 表 
现 , 也 是 信息 检索 素养 的 基本 要 素 。 

第 1 章 说 明了 信息 检索 素养 的 概念 含义 、 发 展 动因 、 特 点 、 主 要 内 容 与 评 
价 标准 。 同 时 说 明了 我 国 当 代 大 学 生 信 息 检 索 素养 的 现状 , 阅 述 了 进行 信息 
检索 素养 教育 与 培养 的 必要 性 与 重要 作用 。 

第 2 章 阅 述 了 信息 检索 与 知识 产权 ,同时 说 明了 知识 产权 的 含义 与 内 容 。 
本 章 重点 阐述 了 信息 检索 与 利用 的 相关 法 律 制 度 、 信 息 检索 与 利用 过 程 中 的 
道德 自律 以 及 信息 检索 与 利用 同 知识 产权 保护 的 相互 影响 。 通 过 本 章 的 学 
习 , 间 在 培养 大 学 生 的 信息 检索 道德 和 信息 获取 的 相关 法 律 知 识 。 

第 3 章 阅 述 了 信息 检索 基本 知识 。 包 括 检索 的 概念 .信息 检 索 的 含义 与 
类 型 .信息 检索 涉及 的 相关 支撑 领域 .信息 检索 的 前 沿 与 热点 问题 。 通 过 本 章 
学 习 , 旨 在 使 读者 总 体 把 握 信息 检索 的 基本 知识 。 
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第 4 章 旨 在 进行 有 关 信 息 检 索 方 法 的 知识 学 习 , 初 步 形 成 大 学 生 必 须 的 
信息 检索 方法 与 技能 性 知识 基础 。 内 容 包括 : 信息 源 及 其 加 工 层 次 类 型 、 信 
息 源 及 其 物理 载体 类 型 、 信 息 源 的 出 版 发 行 与 共享 类 型 .主要 信息 源 类 型 的 辨 
别 、 信 息 检索 工具 的 基本 功能 与 类 型 、 信 息 检 索 途 径 、 信 息 检 索 方 法 与 策略 以 
及 信息 检索 质量 与 评价 等 内 容 。 

需 提 示 的 是 : 在 有 限 篇 幅 内 ,本 篇 不 可 能 把 “信息 检索 素养 基础 知识 ” 进 
行 全 面 概述 与 阐述 (例如 信息 检索 道德 所 涉及 的 知识 产权 与 法 律 问题 以 及 详 
细 发 展 历史 等 内 容 ), 如 因 学 习 需 要 ,可 以 查阅 相关 书籍 ;第 4 章 所 涉及 的 有 关 
信息 检索 方法 的 原理 性 知识 (例如 信息 检索 的 布尔 逻辑 组 配 系 、 构 造 高 级 检索 
表达 式 等 ), 将 在 第 二 部 分 “信息 检索 素养 基本 原理 篇 "和 第 三 部 分 “信息 检索 
素养 实践 应 用 篇 ”中 详细 阐述 。 


第 1 章 大 学 生 信息 检索 素养 概述 


当今 世界 ,因为 信息 产业 的 经 济 总 量 超过 了 工业 经 济 ,也 远 远 超过 了 农业 经 济 , 所 以 
人 类 总 体 上 已 无 可 置疑 地 步 人 了 信息 时 代 , 而 且 以 惊人 的 速度 .规模 和 爆发 力 不 断 改造 和 
提升 着 现代 工业 、 现 代 农 业 和 现代 服务 业 的 快速 进步 。 计 算 机 技术 数据 通信 技术 、 多 媒 
体 技术 等 IT 技术 无 时 无 刻 不 在 深刻 影响 着 我 们 每 个 人 的 学 习 、 工 作 和 生活 。 

根据 中 国 互联 网 信息 中 心 (http://www. cnnic. cn) 于 2016 年 1 月 发 布 的 "中国 互联 
网 络 发 展 状况 (第 37 次 ) 统 计 报 告 ”显示 : 截至 2015 年 12 月 ,中 国 网 民 规模 达 6. 88 亿 人 ， 
中 国 网 民 的 人 均 周 上 网 时 长 为 26.2 小 时 ,互联 网 普及 率 达 到 50.3% ,半数 中 国人 已 接 入 
互联 网 ,其 中 有 90.1% 的 网 民 通 过 手机 上 网 。 网 民 数 量 的 激增 和 旺盛 的 市 场 需 求 推动 了 
互联 网 领域 更 广泛 的 应 用 发 展 热潮 。1. 10 亿 网 民 通 过 互联 网 实现 在 线 教育 ,1. 52 亿 网 民 
使 用 网 络 医 疗 ,9664 万 人 使 用 网 络 预 约 出 租车 ,网 络 预 约 专 车 人 数 已 达 2165 万 人 ,网 上 
支付 用 户 规 模 达 4. 16 亿 人 ,全 国 开展 在 线 销售 的 企业 比例 为 32.6% ,开展 在 线 采购 的 企 
业 比 例 为 31. 5% ,我 国 网 站 总 数 为 423 万 个 ,中 国 网 页 数量 为 2123 亿 个 。 

在 信息 时 代 的 今天 , 面 对 几 何 级 数 增长 的 海量 信息 资源 ,如 何 有 效 地 检索 、 获 取 、 评 
估 \ 传 播 、 共 享 和 利用 信息 ,成 为 了 每 个 人 重要 的 基本 素养 和 能 力 要 求 。 作 为 信息 时 代 的 
大 学 生 , 需 要 重视 信息 检索 素养 的 知识 学 习 与 能 力 培养 。 信 息 检索 素养 的 理论 知识 学 习 
与 基本 能 力 形成 ,不 仅 直 接 影响 着 大 学 生 的 在 校 学 业 表现 ,也 较 大 程度 上 影响 着 他 们 今后 
的 学 习 与 发 展 (例如 终身 学 习 、 创 新 创业 等 持续 性 需要 ) 。 

信息 检索 素养 是 一 个 得 到 持续 和 广泛 研究 的 课题 ,在 社会 信息 化 不 断 提升 的 今天 , 对 
大 学 生 而 言 其 重要 性 更 为 凸显 。 据 我 国 图 书 情报 学 领域 专家 赖 茂生 的 研究 : 本 科 生 检索 
方法 手段 单一 ,使 用 搜索 引擎 查找 生活 、 娱 乐 类 信息 ,对 搜索 引擎 易 用 性 的 判断 高 于 
OPAC 和 数据 库 ,无论 是 检索 字段 的 使 用 还 是 对 检索 结果 的 判定 ,其 所 凭借 和 依据 的 字段 
或 内 容 均 很 少 ;与 受过 专业 训练 的 信息 管理 专业 的 大 学 生 ( 含 研究 生 ) 相 比 , 其 他 专业 的 大 
学 生 在 对 检索 结果 的 甄别 能 力 上 存在 显著 差异 ,大学生 对 特定 的 信息 检索 系统 (如 搜索 引 
擎 ) 有 着 较 强 的 偏好 ,但 是 对 信息 检索 系统 所 提供 的 辅助 手段 (如 高 级 检索 语法 ) 的 使 用 却 
不 尽 如 人 意 。 
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1.1 信息 检索 素养 概述 


1.1.1 信息 检索 素养 的 基本 概念 

信息 检索 素养 (information retrieval literacy) 的 内 涵 与 外 延 与 “信息 素养 ”的 概念 含 
义 较为 相近 。 信 息 素 养 (information literacy) 一 词 ,最 早 是 由 美国 信息 产业 协会 (IA) 主 席 
保罗 。 泽 考 斯 基 在 1947 年 提出 的 :“ 利 用 大 量 的 信息 工具 及 主要 信息 源 使 问题 得 到 解答 
的 技术 和 技能 ”他 强调 信息 素养 是 一 种 信息 检索 的 信息 查询 、 获 取 与 利用 以 解决 问题 的 
技能 和 能 力 ,体现 了 对 于 信息 社会 每 个 公民 的 一 项 基本 能 力 要 求 。 由 于 “信息 素养 ”概念 
从 产生 之 初 就 与 “信息 检索 素养 "概念 含义 相近 ,所 以 在 很 多 正式 场合 (专著 论文、 会 议 文 
献 或 课堂 教学 的 教案 资料 与 教材 等 六 信息 检索 素养 "与 “信息 素养 ?是 等 同 对 待 的 ,尽管 后 
来 的 发 展 对 “信息 素养 ?概念 有 一 定 拓 展 和 延伸 。 

信息 检索 素养 的 概念 含义 大 多 基于 图 书馆 学 、 情 报 学 的 学 科 角 度 ,而 信息 素养 的 含义 
大 多 基于 社会 学 的 角度 。 美 国 图 书馆 协会 给 予 的 定义 :“ 一 个 有 信息 素养 的 人 ,必须 能 够 
确定 何 时 需要 信息 ,并 且 具 有 检索 .评价 和 有 效 使 用 所 需 信息 的 能 力 。? 它 简要 地 概括 了 信 
息 检索 素养 的 主要 内 容 与 完整 过 程 。 

大 学 生 信息 检索 素养 的 含义 ,一 方面 它 体 现 着 一 种 终身 学 习 的 理念 和 自主 学 习 的 能 
力 , 这 也 是 我 国 大 力 提倡 的 教育 理念 和 目标 ; 另 一 方面 它 表 现 为 搜集 信息 、 解 决 问题 的 能 
力 , 这 不 仅仅 表现 为 检索 信息 能 力 , 更 是 对 创造 性 思维 的 考验 ,同时 它 要 求 具备 道德 法 律 
意识 ,在 法 律 允 许 . 道 德 约束 下 进行 信息 检索 与 利用 活动 。 此 外 ,在 当今 社会 ,信息 检索 素 
养 不 仅仅 是 一 个 人 解决 问题 的 能 力 ,更 重要 的 是 一 种 潜在 的 思想 .意识 和 个 人 素质 。 

“信息 检索 素养 ? 指 有 能 力 从 各 种 不 同 信息 源 (Web 数据 库 、 图 书馆 资源 库 、 专 门 检索 
工具 或 引擎 平台 等 ) 中 查询 .获取 、` 评 价 和 使 用 信息 。 信 息 检 索 素 养 可 以 概括 为 一 个 人 在 
查找 与 获取 信息 、 处 理 和 共享 信息 并 利用 信息 方面 的 知识 和 能 力 品 质 。 信 息 检 索 素养 既 
是 个 体 查找 、 检 索 、 分 析 信息 的 信息 认识 能 力 , 也 是 个 体 整 合 , 利 用 、 处 理 、 创 造 信息 的 信息 
应 用 能 力 。 具 体 描述 为 : 善于 根据 问题 分 析 自 身 的 信息 需求 (例如 学 习 或 工作 需要 ), 进 
而 确定 信息 来 源 并 使 用 有 效 的 检索 或 查找 方法 ,及 时 地 获取 需要 的 信息 ;善于 整理 信息 、 
分 析 评 价 信息 ,善于 运用 信息 技术 处 理 信息 并 用 于 解决 问题 ;在 信息 的 获取 、 处 理 、 共 享 、 
使 用 的 过 程 中 有 和 良好 的 信息 意识 、 信 息 道 德 和 强烈 的 社会 责任 心 ,有 一 定 创新 .协作 和 服 
务 精 神 。 

因此 ,信息 检索 素养 包含 了 检索 技术 和 人 文 精神 两 个 层面 的 意义 : 在 检索 技术 层面 
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上 ,信息 检索 素养 反映 的 是 人 们 利用 信息 检索 的 意识 和 能 力 ; 在 人 文 层 面 上 ,信息 检索 素 
养 反 映 了 人 们 利用 信息 时 表现 出 来 的 品质 和 修养 (例如 信息 产权 意识 .信息 安全 意识 、 不 
良 信 息 过 滤 与 免疫 、 网 络 暴力 抵制 与 防护 .杜绝 抄袭 与 届 窃 学 术 不 端 行为 等 )。 大 学 生 要 
想 在 信息 社会 中 更 好 地 生存 和 发 展 ,不 断 提高 自身 的 学 习 、 工 作 和 生活 效率 就 必须 具备 良 
好 的 信息 检索 素养 。 获 取 、 评 价 、 共 享 与 利用 信息 资源 的 知识 和 能 力 ,已 经 在 大 学 生 的 学 
习 与 研究 、 生 活 与 娱乐 .实践 与 工作 等 环节 发 挥 着 越 来 越 重要 的 作用 。 

可 以 从 广义 和 狭义 两 个 角度 来 进一步 理解 信息 检索 素养 的 概念 含义 。 

广义 而 言 : 信息 检索 素养 是 个 人 内 在 综合 修养 的 一 个 重要 方面 。 它 外 在 表现 为 个 体 
在 为 实现 认 知 而 进行 的 信息 活动 中 所 表现 出 来 的 文化 素养 .信息 检索 意识 .信息 检索 技能 
和 信息 利用 伦理 道德 观念 的 总 和 。 简 而 言 之 ,文化 素养 .信息 检索 意识 、 信 息 检索 技能 和 
信息 利用 伦理 道德 是 个 体内 在 信息 检索 素养 的 外 在 表现 ,也 是 信息 检索 素养 的 四 大 基本 
要 素 。 这 里 的 文化 素养 有 两 方面 含义 : 一 方面 是 检索 知识 的 学 习 ; 另 一 方面 是 指 个 体 在 
工作 ,生活 中 对 所 面临 信息 需求 的 问题 或 任务 及 相关 信息 的 认识 和 处 理 。 

狭义 : 如 果 依 据 学 习 的 信息 加 工 理 论 ,把 认 知 看 做 是 信息 的 加 工 , 它 是 转换 、 简 约 、 储 
存 、 提 取 和 使 用 等 活动 输入 的 过 程 ,那么 信息 检索 素养 就 是 在 获取 、 运 用 、 加 工 信 息 , 生 成 、 
创造 ,表达 新 信息 的 过 程 中 所 表现 出 来 的 综合 能 力 。 

总 之 ,信息 检索 素养 是 一 个 含义 广泛 的 综合 性 、 发 展 性 的 概念 ,信息 检索 素养 不 仅 包 
括 利 用 信息 工具 和 信息 资源 的 能 力 , 还 包括 获取 识别 信息 .加 工 处 理 信息 、 传 递 与 创造 信 
息 的 能 力 , 更 重要 的 是 以 独立 自主 学 习 的 态度 和 方法 、 以 批判 精神 以 及 强烈 的 社会 责任 感 
和 参与 意识 ,并 将 它们 用 于 实际 问题 的 解决 和 进行 创新 性 思维 的 综合 的 信息 能 力 。 


1.1.2 大 学 生 信息 检索 素养 的 内 酒 

信息 检索 素养 是 很 多 领域 的 研究 重点 ,这 与 信息 素养 教育 能 够 直接 促进 个 人 乃至 社 
会 的 发 展 有 关 。 图 书 情报 领域 是 信息 检索 素养 研究 的 一 支 主 要 力量 。 例 如 ,美国 图 书馆 
协会 提出 (高 等 教育 信息 素养 能 力 标 准 》(Information Literacy Competency Standards 
Jor Higher Education) ,该 标准 从 五 个 方面 来 揭示 信息 检索 素养 的 内 涵 。 

(1) 确定 信息 需求 的 本 质 和 范围 。 

(2) 优质 高 效 地 获取 所 需 信 息 。 

(3) 客观 地 评价 信息 和 信息 源 , 并 将 所 选取 信息 纳入 其 知识 库 和 价值 系统 。 

(4) 使 用 信息 完成 给 定 的 任务 。 

(5) 理解 与 信息 使 用 和 获取 相关 的 经 济 、 法 律 和 社会 议题 ,并 合理 合法 地 使 用 信息 。 
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信息 检索 素养 的 男 一 内 涵 框 架 是 由 美国 Eisenberg 和 Berkowitz 提出 的 Big6 能 力 ， 
包括 任务 定义 、 信 息 查寻 策略 .定位 与 获取 信息 、 信 息 使 用 .综合 和 评估 六 个 方面 。 我 国 图 
书 情报 界 的 信息 检索 素养 研究 侧重 于 问题 解决 和 信息 服务 提供 ;教育 技术 领域 则 关注 信 
息 科 学 知识 ,信息 检索 能 力 、 信 息 检 索 情 感 意识 和 信息 伦理 道德 四 个 方面 。 大 学 生 信息 检 
索 素 养 的 内 涵 可 以 包括 以 下 几 个 方面 。 

(1) 信息 检索 意识 。 信 息 检 索 素 养 教育 最 重要 的 一 点 是 培养 大 学 生 的 信息 检索 意 
识 , 即 要 求 大 学 生 具 有 一 种 使 用 计算 机 与 其 他 信息 技术 来 解决 自己 学 习 \ 工 作 和 生活 中 信 
息 需 求 问 题 的 意识 。 

(2) 信息 检索 伦理 修养 。 大 学 生 能 够 遵循 信息 应 用 的 伦理 道德 规范 ,不 从 事 非 法 活 
动 ,同时 也 知道 如 何 防止 计算 机 病毒 和 其 他 计算 机 犯罪 活动 ,在 法 律 法 规 允 许 的 范围 内 合 
理 合法 地 检索 与 利用 信息 资源 。 

(3) 信息 检索 技术 知识 。 掌 握 信息 检索 技术 的 原理 、 名 词 术语 与 基本 应 用 ,了 解 信息 
检索 技术 发 展 与 作用 ,具有 一 定 的 信息 检索 技术 知识 ,把 握 信 息 检索 技术 的 发 展 与 应 用 。 

(4) 具有 一 定 的 信息 检索 能 力 。 即 查询 评价 和 利用 信息 以 提高 学 习 、 工 作 和 生活 效 
率 的 能 力 。 能 利用 信息 技术 获取 自己 所 需要 的 信息 ,评价 和 分 析 所 得 到 的 信息 ,并 有 效 地 
利用 在 自身 的 学 习 、 工 作 和 生活 之 中 。 


1.1.3 信息 检索 素养 的 发 展 动因 

(1) 一 种 个 体 的 基本 能 力 素养 。 当 今 信息 量 的 几何 级 数 膨胀 和 海量 信息 中 信息 质量 
的 不 确定 性 造就 了 信息 超载 的 局 面 , 对 人 们 认识 .检索 、 使 用 和 评价 信息 的 能 力 形成 了 挑 
战 。 人 们 在 社会 生活 的 各 个 方面 面临 着 不 同 种 类 的 .数量 巨大 的 信息 把 握 与 选择 ,为 保证 
其 真实 性 、 完 整 性 和 安全 性 ,必须 以 有 效 的 手段 去 获取 、 利 用 和 鉴别 信息 ,这 种 能 力 来 自信 
息 检 索 素 养 教育 。 美 国教 育 技术 CEO 论坛 2001 年 第 4 季度 报告 提出 21 世纪 人 才 的 重 
要 能 力 标准 包括 的 五 个 方面 : 基本 学 习 技 能 ( 指 读 、 写 、 算 ) 信息 素养 .创新 思维 能 力 、 人 
际 交往 与 合作 精神 .实践 能 力 。 信 息 素 养 是 其 中 的 一 个 重要 要 素 之 一 。 大 学 生 的 信息 检 
索 素 养 要 求 ,比较 典型 的 有 来 自 美国 高 校 和 研究 图 书馆 协会 CRAL 特别 工作 组 ,他 们 提 
出 高 等 院 校 学 生 应 具备 的 信息 检索 素养 有 六 大 指标 : 确定 所 需 信息 的 范围 ; @ 有 效 地 
获取 所 需 的 信息 ; 图 鉴别 信息 及 其 来 源 ; @ 将 检 出 的 信息 融入 自己 的 知识 基础 ; @ 有 效 
地 利用 信息 去 完成 一 个 具体 的 任务 ; @ 了 解 利用 信息 所 涉及 的 经 济 、 法 律 和 社会 问题 , 合 
理 、 合 法 地 获取 和 利用 信息 。 六 大 指标 下 包括 22 个 二 级 指标 和 86 个 可 测评 的 科目 。 

(2) 一 种 个 体 的 综合 信息 能 力 要 求 。 信 息 检 索 素养 包括 广泛 的 概念 (例如 信息 检索 
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的 数学 原理 .计算 机 数据 挖掘 、 云 计算 与 大 数据 处 理 、 互 联网 法 规 等 ), 和 许多 学 科 相 关 , 包 
含 人 文 的 ,技术 的 、 经 济 的 、 法 律 等 诸多 知识 背景 。IT 技术 支撑 信息 素养 ,是 信息 检索 素 
养 的 一 种 有 力 技术 工具 。 信 息 检 索 素养 这 种 信息 能 力 ,包括 信息 智慧 、 信 息 道 德 、 信 息 意 
识 、 信 息 觉 悟 、 信 息 观念 ,信息 潜能 、 信 息 心理 等 多 个 方面 , 它 是 一 种 了 解 . 搜 集 、 评 价 和 利 
用 信息 的 知识 结构 ,需要 借助 信息 技术 、 依 靠 完 善 的 查询 与 利用 方法 、 通 过 鉴别 和 推理 来 
完成 实际 的 信息 应 用 与 再 创新 。 


1.1.4 信息 检索 素养 的 特点 

同 信息 检索 素养 的 含义 密切 相关 的 是 信息 检索 素养 特点 ,明确 其 特点 既 有 助 于 进 一 
步 把 握 信息 检索 素养 的 含义 本 质 , 也 有 助 于 形成 信息 检索 素养 培养 的 明确 对 策 。 

1. 信息 检索 素养 的 普遍 性 

信息 检索 素养 的 普遍 性 是 指 在 信息 社会 中 ,信息 检索 素养 普遍 存在 于 社会 的 各 个 领 
域 ,属于 每 一 个 人 的 一 种 广泛 的 基本 素养 。 信 息 检 索 素 养 普遍 性 之 所 以 存在 的 根本 原因 
是 信息 检索 与 获取 需求 无 时 不 有 、 无 处 不 在 。 

首先 ,在 信息 社会 中 ,信息 资源 日 益 成 为 社会 各 领域 中 最 活跃 .最 具有 决定 意义 的 因 
素 , 是 一 种 普遍 存在 的 重要 的 支撑 性 资源 ,基于 知识 和 信息 的 新 经 济 形态 已 经 形成 庞大 的 
规模 ,信息 产业 成 为 国民 经 济 的 支柱 产业 ,信息 技术 的 飞速 发 展 使 “21 世纪 是 知识 与 信息 
的 时 代 ” 成 为 共识 ,信息 的 财富 意识 业已 形成 ,善于 拥有 信息 资源 就 能 够 利用 信息 开发 、 设 
计 出 所 需要 的 产品 并 占领 市 场 , 能 够 获取 巨大 的 经 济 利益 ,最 典型 的 就 是 目前 流行 的 “ 互 
联网 十 ”对 各 个 行业 生态 的 大 力 渗透 。 其 次 ,信息 技术 的 发 展 使 知识 的 载体 发 生 了 根本 性 
的 变化 。 承 载 知识 的 是 “比特 ”, 即 以 二 进 制 形式 存储 的 数字 媒体 ,其 基本 特性 在 于 无 限 的 
再 生性 和 不 受 任何 限制 的 传播 性 ,人 们 可 以 迅速 地 获取 大 量 所 需 的 知识 和 信息 ,出 现 所 谓 
“知识 大 爆炸 ”的 现象 。 据 联合 国教 科 文 组 织 的 统计 : 人 类 近 30 年 来 所 积累 的 科学 知识 
占有 史 以 来 积累 的 知识 总 量 的 90%, 而 在 此 之 前 的 几 千 年 中 所 积累 的 科学 知识 只 占 
10%。 青 次 ,信息 技术 的 应 用 深入 到 社会 生活 的 各 个 领域 ,成 为 人 类 生活 的 一 部 分 ,信息 
检索 素养 已 成 为 信息 社会 文明 人 应 该 具有 的 一 种 基本 素养 ,是 与 读 、 写 、. 算 一 样 同等 重要 
的 ,终身 有 用 的 基础 能 力 。 它 没有 年 龄 .职务 、 地 域 . 时 间 上 的 区 分 ,没有 绝对 权威 ,人 们 可 
以 通过 学 校 教育 或 自学 来 不 断 培育 和 提高 信息 检索 素养 。 

2. 信息 检索 素养 的 层次 性 

信息 检索 素养 的 层次 性 是 指 在 信息 社会 中 ,由 于 人 们 与 信息 技术 应 用 的 密切 程度 与 
实际 信息 需求 的 层次 不 同 而 具有 不 同 要 求 的 特点 。 信 息 检索 素养 的 普遍 存在 ,使 具有 良 
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好 的 信息 检索 素养 成 为 信息 社会 对 所 有 人 的 基本 要 求 。 但 信息 技术 本 身 是 一 种 高 度 知识 
化 的 技术 ,因此 依据 使 用 者 与 信息 技术 关系 的 密切 程度 不 同和 实际 工作 学习、 生活 对 信 
息 需 求 层次 的 不 同 ,信息 检索 素养 可 分 为 不 同 的 层次 与 要 求 。 

首先 是 公民 基本 型 信息 检索 素养 。 在 信息 社会 中 ,任何 人 都 不 可 避免 地 与 信息 技术 
的 应 用 联系 着 ,这 就 要 求 所 有 的 公民 都 应 具有 最 基本 的 信息 检索 素养 ,这 是 对 所 有 公民 的 
要 求 , 也 是 学 校 教育 阶段 所 应 培育 的 学 生 综 合 素质 的 一 个 重要 组 成 部 分 。 要 通过 学 校 教 
育 培养 他 们 对 信息 技术 的 兴趣 和 意识 ,掌握 信息 技术 的 基本 知识 和 技能 ,了 解 信息 技术 的 
发 展 与 应 用 对 人 类 社会 的 深刻 影响 ,培养 学 生 良 好 的 信息 能 力 ,教育 学 生 负 责任 地 使 用 信 
息 技术 ,培养 学 生 把 信息 技术 作为 支持 终身 学 习 和 合作 学 习 的 手段 ,为 适应 信息 社会 的 学 
习 、 工 作 和 生活 打下 必要 的 基础 ,使 他 们 成 为 信息 社会 的 “合格 网 民 ”。 

其 次 是 职业 操作 型 信息 检索 素养 。 作 为 信息 技术 应 用 人 员 所 需要 的 信息 检索 素养 是 
在 公民 信息 检索 素养 的 基础 上 建立 起 来 的 。 他 们 通常 要 较为 系统 地 了 解 信息 技术 的 工作 
原理 ;具备 通用 工具 软件 的 应 用 能 力 , 并 能 按照 职业 与 分 工 的 要 求 , 对 某 一 类 工具 软件 比 
较 熟 悉 ,掌握 该 软件 所 具有 的 各 种 特殊 信息 与 数据 的 意义 ;具有 较 强 的 信息 应 用 能 力 ,能 
够 充分 发 挥 软件 工具 的 功能 ,制作 与 开发 出 与 本 职业 相关 的 各 种 各 样 的 信息 检索 数据 库 
产品 。 

再 次 是 专业 研究 型 信息 检索 素养 。 作 为 信息 检索 系统 (例如 专门 学 习 型 数据 库 、 搜 索 
引擎 等 ) 的 开发 设计 人 员 ,他 们 把 信息 检索 系统 的 开发 作为 自己 的 职业 或 个 人 爱好 。 通 常 
要 求 他 们 具有 十 分 强烈 的 信息 意识 ,具有 较 高 的 信息 产权 观 和 信息 安全 观 ;具有 高 度 的 信 
息 伦 理 道德 修养 ;熟悉 信息 检索 与 服务 系统 的 工作 原理 与 技术 实质 。 作 为 信息 检索 与 服 
务 系统 的 开发 设计 人 员 ,尤其 是 在 信息 能 力 方面 要 求 更 高 ,能 够 熟练 应 用 各 种 通用 工具 软 
件 与 编程 语言 ,掌握 检索 系统 所 具有 的 各 种 信息 检索 算法 与 特殊 意义 。 同 时 更 加 强调 在 
利用 信息 技术 系统 中 的 信息 理解 ,信息 选择 、 信 息 批判 .信息 收集 、 信 息 处 理 \ 信 息 生成 、 信 
息 表达 等 方面 的 能 力 , 并 具备 较 强 的 程序 设计 与 系统 设计 能 力 , 从 而 能 够 不 断 开发 出 新 的 
信息 检索 与 服务 产品 ,推动 信息 检索 的 技术 性 发 展 。 

3. 信息 检索 素养 的 实践 性 与 操作 性 

信息 检索 素养 的 实践 性 与 操作 性 是 指 信息 检索 素养 的 学 习 与 培育 、 提 高 与 评价 过 程 
的 最 终 体现 都 在 于 人 们 对 于 信息 检索 与 利用 的 实践 与 操作 上 。 首 先 ,信息 检索 素养 的 学 
习 与 培育 必须 通过 大 量 的 实际 操作 来 锻炼 。 就 信息 知识 的 掌握 而 言 , 只 有 通过 具体 的 操 
作 ,把 抽象 的 知识 具体 化 ,把 深奥 的 信息 检索 技术 理论 化 为 实践 行动 ,才能 使 人 们 对 知识 
和 有 用 信息 有 更 深刻 的 认识 与 理解 ; 较 强 的 信息 意识 和 信息 能 力 只 有 通过 不 断 操作 与 实 
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践 , 才 会 逐步 提高 ,从 而 形成 捕捉 信息 的 敏锐 性 、 筛 选 信息 的 果断 性 .检索 和 评估 信息 的 准 
确 性 、 交 流 信息 的 自如 性 和 应 用 信息 的 独创 性 ;正确 的 信息 伦理 道德 也 只 有 在 信息 检索 活 
动 的 不 断 应 用 过 程 中 才能 发 现 问 题 与 提出 解决 问题 的 办 法 ,从 而 形成 知 - 情 - 信 - 意 - 行 的 良 
好 的 信息 伦理 道德 修养 。 其 次 ,信息 检索 素养 的 评价 集中 表现 在 具体 的 使 用 与 操作 上 。 
信息 意识 的 强 与 弱 , 要 看 个 体 在 实际 操作 中 敢 不 敢 、 想 不 想 使 用 信息 技术 ,对 信息 检索 技 
术 的 使 用 是 否 热 心 与 积极 ;信息 伦理 道德 的 好 坏 ,要 看 在 实践 中 能 否 遵 守 各 项 法 律 法 规 
是 否 遵守 网 络 文明 公约 ,是 否 尊重 他 人 的 劳动 成 果 等 ;判断 一 个 人 信息 知识 与 能 力 的 高 低 
依据 的 是 他 能 够 知道 多 少 ,运用 信息 检索 技术 解决 实际 问题 的 水 平 如 何 。 

4. 信息 检索 素养 的 发 展 性 

信息 检索 素养 的 发 展 性 是 指 随 着 信息 技术 的 不 断 发 展 , 人 们 的 信息 检索 素养 必然 会 
不 断 地 提高 与 发 展 , 永 无 止境 。 从 信息 技术 的 发 展 来 看 ,计算 机 信息 技术 的 发 展 与 普及 尽 
管 只 有 几 十 年 的 时 间 , 但 它 已 经 历 了 电子 管 计算 机 、 唱 体 管 计算 机 、 集 成 电路 计算 机 以 及 
大 规模 集成 电路 计算 机 的 发 展 阶段 。 尤 其 是 随 着 信息 社会 的 来 临 ,信息 技术 的 发 展 日 新 
月 异 , 人 们 对 信息 检索 素养 的 要 求 也 越 来 越 高 ,内 涵 越 来 越 丰富 ,由 最 初 强调 计算 机 检索 
原理 的 程序 编程 能 力 , 到 包括 信息 意识 .信息 能 力 与 信息 知识 .信息 伦理 道德 等 各 个 方面 ， 
并 且 随 着 信息 技术 的 不 断 发 展 , 其 内 涵 将 会 不 断 发 展 。 人 们 已 经 掌握 的 知识 和 技术 很 快 
就 会 被 新 的 功能 更 强 的 技术 与 软件 所 取代 。 为 适应 社会 的 发 展 , 人 们 将 不 断 学 习 新 的 知 
识 与 技术 ,这 不 仅 将 有 力 地 促进 人 们 信息 检索 素养 的 发 展 和 提高 ,而 且 通过 信息 技术 教育 
还 将 有 效 地 促进 个 体 信息 素养 的 全 面 提高 。 


1.2 信息 检索 素养 的 主要 内 容 


信息 检索 素养 主要 包括 信息 检索 意识 、 信 息 检索 能 力 、 信 息 检索 道德 、 信 息 知 识 、 
信息 观念 、 信 息 心理 等 方面 ,而 信息 检索 意识 (想到 没 想到 ,信息 需求 的 有 效 获 取 意 识 ) 、 
信息 检索 能 力 (相应 技能 的 会 不 会 )、 信 息 检索 道德 (信息 共享 与 利用 的 合 规 合 法 性 ) 又 是 
其 中 的 主要 方面 。 


1.2.1 信息 检索 意识 

信息 检索 意识 是 指 人 的 头脑 对 信息 需求 满足 及 其 检索 原理 的 既 抽 象 又 概括 的 认识 。 
信息 检索 意识 是 信息 检索 素养 的 前 提 与 基础 。 信 息 检索 意识 主要 表现 在 对 需求 信息 具有 
高 度 的 敏感 性 和 积极 主动 的 主动 性 。 一 个 人 的 信息 检索 意识 强 ,就 能 通过 蛛丝马迹 ,自觉 
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地 捕捉 到 任何 有 价值 的 信息 资源 来 满足 信息 需求 。 信 息 检索 意识 的 教育 , 主要 就 是 培养 
大 学 生 具 有 正确 的 信息 需求 观念 .强烈 的 专业 信息 需求 和 持久 的 信息 注意 力 。 高 校 要 注 
重 培养 大 学 生 善于 观察 的 习惯 ,除了 关注 自己 的 专业 学 科 以 及 交叉 学 科 信息 外 ,还 要 及 时 
发 现 和 掌握 最 新 动态 信息 ,以 便 快 速 、 准 确 而 全 面 地 获取 和 利用 所 需 信 息 , 这 是 创新 人 才 
的 必 备 意识 之 一 。 在 信息 已 成 为 经 济 和 社会 发 展 最 为 重要 的 战略 资源 的 形式 下 ,正视 并 
重视 信息 的 价值 ,做 到 充分 有 效 地 利用 信息 资源 。 


1.2.2 信息 检索 能 力 

信息 检索 能 力 是 信息 检索 素养 的 核心 内 容 , 它 是 指 个 体能 否 依照 自身 的 信息 需求 去 
捕捉 与 发 现 ,查询 与 评价 .选择 与 整合 .吸收 与 利用 信息 ,能 和 否 对 信息 进行 加 工 并 在 获得 信 
息 的 基础 上 进行 创新 性 应 用 。 

信息 检索 能 力 具体 包括 以 下 几 方 面 。 

(1) 自主 ,有 效 地 运用 各 种 检索 工具 和 信息 资源 去 查找 和 收集 所 需 信息 。 

(2) 对 收集 和 检索 到 的 信息 进行 评价 。 

(3) 对 已 获取 的 信息 进行 整理 .选择 和 整合 。 

(4) 将 获得 的 信息 纳入 自己 的 已 有 知识 体系 中 , 即 吸收 信息 。 

(5) 对 信息 检索 知识 进行 不 断 学 习 , 对 已 获得 的 信息 进行 深入 分 析 并 用 于 实际 问题 
解决 ,以 最 终 达 到 满足 信息 需求 的 目的 ,同时 创造 并 生成 可 能 的 新 的 相关 信息 。 

信息 检索 能 力 表现 过 程 如 图 1-1 所 示 。 


报纸 、 期 刊 

图 书 等 文献 解决 问题 
=== 满足 信息 需求 
创造 新 信息 


电视 
广播 


图 1-1 信息 检索 能 力 表现 过 程 


1.2.3 信息 检索 道德 
信息 检索 道德 是 信息 检索 素养 的 灵魂 ,信息 检索 道德 在 静态 上 是 指 个体 在 信息 检索 
与 利用 活动 过 程 中 所 应 当 遵 循 的 道德 行为 规范 ,动态 上 则 是 表现 为 个 体 在 进行 信息 活动 
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时 自觉 遵守 法 律 和 道德 规范 。 信 息 检索 道德 调节 着 信息 创造 者 、 信 息 服务 者 、 信 息 使 用 者 
之 间 的 关系 ,规范 着 人 们 自身 的 信息 检索 行为 , 它 是 个 体 在 信息 活动 中 自觉 承担 社会 责任 
的 表现 ,包括 不 制造 、 传 播 和 消费 不 良 信息 ,不 侵犯 他 人 的 知识 产权 、 商 业 秘密 ` 个 人 隐私 ， 
自觉 坚持 公正 ,平等 真实 的 原则 ,自觉 抵制 不 良 、 恶 意 信息 并 积极 与 违法 信息 活动 做 斗 
争 。 尽 管 信息 检索 道德 缺少 实际 可 操作 性 的 评价 标准 ,但 鉴于 信息 检索 素养 在 某 种 意 
义 上 也 是 一 种 人 文 素养 , 它 决定 着 个 体 的 信息 检索 行为 与 利用 互动 是 否 能 对 自己 、 他 人 
和 社会 产生 积极 作用 。 因 此 ,树立 良好 的 信息 检索 道德 是 有 效 预 防 和 治理 信息 环境 污 
染 、 避 免 抄 袭 、 窃 取 、 信 息 欺 诈 、 网 络 暴力 和 信息 破坏 等 信息 检索 与 利用 过 程 中 道德 失范 
的 根本 。 


1.3 信息 检索 素养 的 评价 标准 


1.3.1 有 信息 检索 素养 的 人 

1989 年 ,美国 图 书馆 协会 和 美国 教育 传播 与 技术 协会 提交 了 一 份 ( 关 于 信息 素养 的 
总 结 报告 ), 提 出 有 信息 素养 的 人 必须 : 认识 到 何 时 需要 信息 ; @ 能 够 评价 和 使 用 所 需 
的 信息 ; @ 有 效 地 利用 所 需 的 信息 。 有 信息 素养 的 人 最 终 是 指 那些 懂得 如 何 学 习 的 人 ， 
懂得 如 何 学 习 是 因为 他 们 知道 如 何 找 到 信息 ,知道 如 何 利用 信息 。 该 报告 开创 了 研究 与 
评价 “有 信息 检索 素养 的 人 ”的 先河 。 

1900 年 ,美国 国家 信息 素养 论坛 在 年 度 报告 中 提出 有 信息 素养 的 人 应 是 : 了 解 自 
己 的 信息 需求 ; @ 明 确 所 需 信 息 的 正确 和 完整 是 制定 明智 决策 的 基础 ; @ 能 在 信息 需求 
的 基础 上 系统 阐述 问题 ; @ 具 有 识别 潜在 信息 源 的 能 力 ,能 制定 成 功 的 检索 策略 ; @ 能 检 
索 信 息 资 源 ,包括 利用 以 信息 为 基础 的 信息 技术 或 其 他 技术 ; @ 具 有 评价 信息 的 能 力 , 能 
为 实际 应 用 而 对 信息 进行 组 织 ; 具有 将 新 信息 结合 到 现存 的 知识 体系 中 的 能 力 ; @ 能 
采用 批判 性 思维 ,利用 信息 并 解决 问题 。 该 报告 对 研究 与 评价 有 信息 检索 素养 的 人 ” 进 
行 了 拓展 和 进一步 发 展 。 

Doyle 在 (信息 素养 全 美 论坛 的 终结 报告 ) 中 定义 一 个 具有 信息 检索 素养 的 人 ,他 应 
该 具有 : 认识 到 精确 的 和 完整 的 信息 是 做 出 合理 决策 的 基础 ; 四 确定 对 信息 的 需求 , 形 
成 基于 信息 需求 的 问题 ; @ 确 定 潜在 的 信息 源 . 制 定 成 功 的 检索 方案 ; @ 从 包括 基于 计算 
机 和 其 他 的 信息 源 获 取信 息 , 评 价 信息 ,组 织 信息 用 于 实际 的 应 用 ; @ 将 新 信息 与 原 有 的 
知识 体系 进行 融合 以 及 在 批判 性 思考 和 问题 解决 的 过 程 中 使 用 信息 。 

全 美 图 书馆 协会 和 美国 教育 传播 与 技术 在 (信息 能 力 : 创建 学 习 的 伙伴 》 一 书 


12 /大 学 生 信息 检索 素养 教程 


中 ,从 信息 素养 .独立 学 习 和 社会 责任 三 个 方面 ,提出 了 学 生 的 九条 信息 检索 素养 综 
合 性 标准 。 

1. 信息 素养 

(1) 有 信息 检索 素养 的 学 生 能 有 效 地 和 高 效 地 获取 信息 。 

(2) 有 信息 检索 素养 的 学 生 能 批判 性 地 评价 信息 。 

(3) 有 信息 检索 素养 的 学 生 能 准确 地 、 创 造 性 地 使 用 信息 。 

2. 独立 学 习 

(1) 独立 的 学 习 者 要 有 信息 检索 素养 ,并 能 探求 与 个 人 兴趣 相关 的 信息 。 

(2) 独立 的 学 习 者 要 有 信息 检索 素养 ,并 能 评价 文献 和 其 他 信息 的 创造 性 表达 。 

(3) 独立 的 学 习 者 要 有 信息 检索 素养 ,并 能 力争 在 信息 查询 和 知识 的 产生 中 做 到 


最 好 。 

3. 社会 责任 

(1) 对 学 习 团 体 和 社会 做 出 积极 贡献 的 学 生 具 有 信息 检索 素养 ,并 能 认识 信息 对 民 
主 社会 的 重要 性 。 


(2) 对 学 习 团体 和 社会 做 出 积极 贡献 的 学 生 具 有 信息 检索 素养 ,并 能 实践 与 信息 和 
信息 技术 相关 的 合乎 道德 的 行为 。 

(3) 对 学 习 团体 和 社会 做 出 积极 贡献 的 学 生 具 有 信息 检索 素养 ,并 能 积极 参与 小 组 
的 活动 来 探索 和 产生 信息 。 


1.3.2 信息 检索 素养 评价 标准 的 必要 性 

1. 有 助 于 评价 个 人 的 信息 检索 素养 能 力 

信息 检索 素养 能 力作 为 信息 社会 人 们 的 一 项 基本 技能 ,涵盖 很 多 方面 的 内 容 ,包括 信 
息 检索 意识 .信息 检索 能 力 和 信息 检索 伦理 道德 等 。 要 对 内 涵 丰 富 的 信息 检索 素养 能 力 
进行 评价 ,简单 以 课程 测试 .问卷 调查 等 单一 的 评价 方式 进行 , 既 不 科学 也 不 符合 学 科 特 
征 。 因 此 ,要 科学 地 评价 个 人 的 信息 检索 素养 ,应 采取 多 项 目 、 多 途径 ,多 形式 、 动 态 与 静 
态 相 结合 的 方法 ,灵活 有 效 地 进行 评价 。 但 要 采取 多 种 方式 进行 评价 必须 依赖 一 定 的 评 
价 标准 ,只 有 根据 统一 的 评价 标准 ,才能 保证 实际 的 评价 活动 得 以 有 效 开展 。 

2. 有 助 于 信息 检索 素养 教育 的 规范 化 进行 

信息 检索 素养 评价 标准 之 于 信息 检索 素养 教育 的 重要 性 日 益 得 到 图 书馆 学 与 情报 学 
界 、 教 育 学 界 人 士 的 认同 。 尤 其 在 国外 ,从 20 世纪 70 年 代 已 经 开始 研究 ,目前 已 经 形成 
许多 较为 完善 的 信息 检索 素养 标准 。 这 些 标 准 为 进一步 开展 信息 检索 素养 教育 打下 了 坚 
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实 的 基础 ,使 得 信息 检索 素养 教育 在 全 世界 范围 规范 化 地 开展 ,各 国 根据 标准 实施 了 一 系 
列 引 人 关注 的 信息 检索 素养 教育 项 目 。 我 国 因 信息 素养 评价 标准 的 缺失 ,信息 检索 素养 
教育 至 今 基本 上 还 是 各 行 其 是 ,没有 明显 的 特色 和 规范 。 只 有 进行 信息 检索 素养 评价 标 
准 研究 ,制定 相关 的 信息 检索 素养 评价 标准 ,才能 有 针对 性 地 制定 相关 课程 计划 和 培养 方 
案 体 系 ,从 而 改进 信息 检索 素养 教育 现状 ,使 得 信息 检索 素养 教育 能 够 在 较为 规范 化 下 的 
环境 中 进行 。 


1.3.3 大 学 生 信息 检索 素养 评价 标准 

信息 检索 素养 是 大 学 生 终 身 学 习 的 基础 ,适用 于 所 有 学 科 、 所 有 学 习 环 境 和 所 有 教育 
形式 ,因此 高 等 教育 应 以 培养 大 学 生 信息 检索 素养 为 重要 内 容 之 一 。 

美国 大 学 与 研究 图 书馆 协会 (American College and Research Libraries, ACRL) 的 
《高 等 教育 信息 素质 能 力 标准 ?提供 了 个 人 信息 检索 素质 的 能 力 架 构 。 这 个 标准 涵盖 了 大 
学 各 个 年 级 的 要 求 ,可 以 借鉴 参考 。 如 表 1-1 所 示 。 

表 1-1 高 等 教育 信息 检索 素养 评价 标准 
一 级 评价 标准 二 级 评价 标准 

.界定 信息 需求 。 
. 知道 辨识 不 同类 型 与 媒体 形式 的 信息 资源 。 


. 考虑 取得 所 需 信 息 的 成 本 和 效益 。 
. 重新 评估 所 需 信 息 的 特性 与 范围 


.选择 适当 的 检索 方法 和 信息 检索 系统 ,以 取得 所 需 信息 。 
. 构建 有 效 的 检索 策略 。 

.利用 上 网 或 亲 访 等 各 种 不 同 的 方法 ,取得 所 需 信息 。 

. 必要 时 ,重新 界定 检索 策略 。 

. 摘要、 记录 管理 信息 资源 


一 、 能 确认 信息 需求 本 质 与 范围 


Pe 


二 、 能 有 效 地 获取 所 需 的 信息 


cn 请 


.从 所 搜集 的 信息 整合 中 .概要 陈述 主要 概念 。 

. 建立 适当 的 准则 ,以 评估 信息 与 资源 。 

.综合 重要 概念 ,以 构建 信息 观念 。 

. 将 新 旧 知 识 加 以 比较 ,以 获得 其 价值 ,矛盾 或 独特 之 处 。 
. 判断 新 知识 对 个 人 价值 系统 的 影响 ,并 调和 其 间 差 异 。 

. 经 由 与 他 人 和 专家 学 者 的 互动 ,以 验证 诠释 所 得 信息 。 

. 判断 是 否 要 修正 最 初 的 查询 疑问 


三 、 能 批判 地 评估 信息 资源 ， 
将 其 纳入 自己 的 知识 库 与 
值 体系 


并 
5 价 


~] 中 钙 性 呈 
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一 级 评价 标准 二 级 评价 标准 


1. 利用 信息 和 原 有 信息 ,以 提高 绩效 。 
2. 修正 创作 过 程 。 
3. 有 效 地 与 他 人 分 享 创作 成 果 

五 、 能 了 解 信息 使 用 的 经 济 、 法 | 1. 了 解 与 信息 、 信 息 科技 相关 的 伦理 、 法 律 与 社会 经 济 课题 。 
2 
3 


四 、 能 有 效 地 使 用 信息 以 达到 个 
人 或 团体 的 特定 目标 


律 与 社会 问题 ,并 合理 合法 | 2. 遵循 信息 获得 和 使 用 的 相关 法 律 法规, 政策 和 各 种 约束 。 
使 用 信息 . 呈现 创作 成 果 并 适时 向 信息 来 源 致谢 


1.4 我 国 当 代 大 学 生 的 信息 检索 素养 现状 


1.4.1 信息 检索 意识 较 弱 

几乎 所 有 的 大 学 生 都 能 意识 到 在 信息 化 的 今天 有 很 多 有 用 的 信息 ,但 是 大 多 数学 生 
无 法 主动 发 现 有 效 的 专业 信息 与 社会 信息 同 自身 的 学 习 、 工 作 和 生活 紧密 联系 起 来 ,通过 
信息 资源 的 掌握 和 有 效 的 信息 检索 活动 来 找到 解决 实际 问题 的 有 效 途 径 。 例 如 大 量 的 网 
络 课程 学 习 网 站 、 网 络 学 习 平台 学习 与 研究 型 数据 库 、. 各 类 慕 课 学 习 平台 、 各 类 虚拟 实验 
平台 等 ,对 于 大 学 生 的 课程 学 习 有 很 好 的 帮助 作用 ,但 是 学 生 的 注册 量 与 访问 量 并 不 高 。 


1.4.2 获取 信息 的 检索 能 力 不 强 

大 多 数学 生 获 取信 息 的 时 候 通常 借助 于 一 般 的 网 络 搜索 引擎 ,没有 掌握 相应 的 信息 
检索 的 方法 与 技巧 。 例 如 ,大 多 数 网 络 数据 库 和 搜索 引擎 都 有 高 级 检索 功能 (或 专业 检索 
功能 ) ,大 多 数学 生 不 用 或 根本 不 知道 怎么 用 。 常 常 在 不 明确 和 细 化 信息 需求 的 情况 下 ， 
频繁 使 用 一 般 检索 功能 或 初级 检索 功能 ,这 样 表 现 出 来 的 信息 检索 能 力 几乎 与 小 学 生 的 
信息 检索 能 力 近 似 。 


1.4.3 加工 与 利用 信息 的 能 力 较 差 

大 多 数学 生 利 用 信息 工具 对 信息 进行 加 工 处 理 的 能 力 还 处 于 较 低 的 水 平 ,只 是 停留 
在 文字 处 理 、 上 网 浏览 信息 、 简 单 的 信息 搜索 、 下 载 或 截图 、 收 发 邮件 等 这 些 初级 应 用 上 ， 
对 信息 的 分 析 、 筛 选 以 及 利用 信息 解决 实际 问题 的 能 力 还 有 待 进一步 加 强 。 


1.4.4 信息 道德 和 信息 法 规 意识 急需 培养 
只 有 少数 的 学 生 能 够 了 解 与 信息 获取 和 利用 相关 的 法 律 法 规 . 道 德 规范 ,对 网 络 环境 
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下 的 “知识 产权 ”“ 个 人 隐私 ”“ 信 息 安全 ”等 方面 的 信息 保护 与 信息 防范 意识 薄弱 ,大 学 
生 对 信息 道德 和 信息 法 规 内 容 的 认识 和 了 解 不 够 全 面 ,从 而 使 恶意 病毒 .信息 泄露 .信息 
诈骗 .网 络 暴力 、 低 俗 游戏 .色情 视频 ,不 当 言 论 等 不 安全 或 网 络 违法 行为 频频 发 生 在 大 学 
生 身 上 。 举 一 个 例子 ,一 个 突出 的 问题 是 很 多 大 学 生 利 用 微 博 、 微 信 、 即 时 通信 软件 等 社 
交 媒 体 分 享 和 暴露 了 自己 .朋友 其 至 家 人 的 很 多 隐私 信息 ,自己 还 “ 乐 在 其 中 ”, 而 不 知 “ 福 
分 祸 之 所 依 ”。 


1.5 大 学 生 信息 检索 素养 教育 与 培养 的 意义 


21 世纪 是 信息 化 时 代 , 信 息 爆 炸 对 人 的 综合 素质 提出 了 日 益 严 峻 的 挑战 ,国民 是 否 
具有 良好 的 信息 检索 素养 成 为 影响 综合 国力 的 一 个 重要 方面 。“ 百 年 大 计 , 教 育 为 本 ”, 高 
校 作 为 人 才 培 养 的 重要 基地 ,对 普及 信息 检索 素养 教育 ,提高 人 才 素 质 具 有 重要 意义 。 为 
适应 信息 时 代 的 发 展 变化 ,大 学 生 应 当 具 备 信息 检索 素养 的 基本 要 求 ,信息 检索 素养 也 成 
为 了 国民 综合 素质 的 一 个 基本 评价 标准 。 信 息 检 索 素 养 是 信息 社会 高 等 教育 的 重要 内 
容 , 信 息 检索 素养 教育 是 培养 学 生 了 解 信息 资源 ,处理 信 息 ` 有 效 利 用 信息 .遵守 信息 道德 
规范 的 活动 。 加 强 信息 检索 素养 ,对 于 促进 学 生 的 学 习 效 率 、 科 研 能 力 、 创 新 创业 实践 与 
数字 化 生活 质量 等 ,具有 十 分 重要 的 意义 。 


1.5.1 信息 化 社会 对 大 学 生 的 信息 检索 素质 需求 

人 类 进入 21 世纪 ,也 进入 了 信息 时 代 和 知识 经 济 时 代 。 计 算 机 技术 、 通 信 技 术 和 网 
络 技 术 的 飞速 发 展 ,特别 是 因特网 在 全 球 的 迅猛 发 展 ,标志 着 人 类 已 经 进入 了 一 个 全 新 的 
发 展 阶 段 即 信息 化 社会 。 信 息 资源 已 成 为 信息 化 社会 赖 以 生存 和 发 展 的 重要 资源 ,成 为 
促使 社会 、 经 济 和 科学 技术 发 生变 革 的 主导 因素 。 信 息 正 以 几何 级 速度 又 增 ,引发 了 “ 信 
息 爆炸 ”, 使 人 们 在 进行 学 习 、 工 作 、 生 活 和 科学 研究 时 ,都 面临 着 正确 信息 选择 与 合理 
利用 的 现实 问题 。 通 过 网 络 、 媒 体 、 图 书馆 、 社 会 、 学 校 等 提供 、 传 播 和 交流 的 各 种 信 
息 , 形 式 多 样 且 内 容 复 杂 , 有 文本 、 图 像 、 视 频 、 音 频 、 动 画 等 ,大 多 数 都 是 未 经 过 过 滤 和 
第 选 的 ,这 就 给 人 们 选择 ,评价 、 理 解 和 利用 信息 带 来 了 新 的 挑战 。 信 息 在 本 质 上 具有 不 
确定 性 ,在 量 上 具有 无 限 扩展 性 ,激增 的 信息 量 并 没有 让 人 们 同步 增加 有 效 利用 信息 的 能 
力 , 这 就 成 为 了 面 对 信息 时 代 人 们 生存 立足 的 现实 挑战 。 信 息 时 代 的 高 等 教育 完全 不 同 
于 传统 的 高 等 教育 ,两 者 最 根本 的 区 别 是 从 以 教师 为 中 心 ,以 全 面 教育 为 主 的 教学 模式 ， 
转变 为 以 学 生 为 中 心 、 以 个 性 化 学 习 为 主 的 模式 ,学 生 也 是 信息 的 生产 者 、 传 播 者 与 合 
作者 。 
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大 学 生 必 须 适 应 信息 化 的 社会 环境 ,熟悉 并 掌握 各 种 现代 化 信息 资源 的 方式 ,具备 发 
据 、 获 取 所 需 信息 的 能 力 ,具备 高 素质 并 学 会 运用 信息 技术 手段 检索 与 利用 信息 。 信 息 
检索 素养 较 低 或 者 缺失 的 学 生 ,就 不 是 一 名 合格 的 大 学 生 。 开 展 大 学 生 信息 检索 素养 教 
育 是 信息 时 代 发 展 的 需要 ,也 是 信息 社会 中 人 们 的 基本 通行 证 。 

我 国教 育 信息 化 开展 得 如 火 如 茶 , 对 学 生 的 信息 检索 素养 教育 也 提出 了 更 高 的 要 求 。 
我 国教 育 信息 化 十 年 发 展 规划 (2011 一 2020 年 ) 明 确 提出 : 着 重 解决 国家 教育 信息 化 全 局 
性 ,基础 性 、 领 域 共性 重大 问题 ,实施 “中 国 数字 教育 2020” 行 动 计划 ,在 优质 资源 共享 、 学 
校 信息 化 .教育 管理 信息 化 .可 持续 发 展 能 力 与 信息 化 基础 能 力 五 个 方面 ,取得 实质 性 重 
要 进展 。 实 施 优质 数字 教育 资源 建设 与 共享 是 推进 教育 信息 化 的 基础 工程 和 关键 环节 。 
到 2015 年 ,基本 建成 以 网 络 资源 为 核心 的 教育 资源 与 公共 服务 体系 ,为 学 习 者 可 享有 优 
质数 字 教 育 资源 提供 方便 快捷 服务 ,建设 各 级 各 类 优质 数字 教育 资源 。 针 对 学 前 教育 、 义 
务 教育 高 中 教育 .职业 教育 、 高 等 教育 、 继 续 教育 、 民 族 教育 和 特殊 教育 的 不 同 需求 ,建设 
20 000 门 优质 网 络 课程 及 其 资源 , 送 选 和 开发 500 个 学 科 工 具 、 应 用 平台 和 1500 套 虚 
拟 仿真 实 训 实验 系统 。 整 合 师 生 需 要 的 生成 性 资源 ,建成 与 各 学 科 门 类 相配 套 、 动 态 更 
新 的 数字 教育 资源 体系 。 公 平 均衡、 质量 .创新 灵活、 个 性 的 教育 信息 化 目标 正在 我 
国 大 力 推进 。 具 有 良好 信息 检索 素养 的 学 生 将 真切 感受 到 "无 处 不 在 的 学 习 , 无 处 不 在 
的 教育 ”。 

2015 年 我 国政 府 工作 报告 中 ,李克强 总 理 首次 提出 “互联 网 十 ”行动 计划 ,以 此 推动 
移动 互联 网 、 云 计算 、 大 数据 、 物 联网 等 与 现代 工业 、 农 业 、 金 融 、 教 育 \ 健 康 、 商 务 等 各 行 各 
业 的 深度 融合 与 创新 。“ 互 联网 十 ”已 经 快速 渗透 到 各 个 传统 行业 之 中 ,而 且 不 是 简单 的 
两 两 相 加 ,而 是 利用 信息 技术 以 及 互联 网 平台 ,让 互联 网 与 传统 行业 进行 深度 融合 与 创 
新 ,创造 新 的 发 展业 态 。 例 如 ,高 等 教育 中 的 茶 课 热潮 在 线 教育 \ 在 线 考试 等 “互联 网 十 ” 
教育 行动 计划 ,都 深刻 地 影响 着 学 生 对 学 习 资 源 的 掌握 ,查询 .评价 与 利用 及 其 社会 实践 
训练 的 质量 与 效率 。 


1.5.2 创新 创业 能 力 培养 的 需要 

信息 检索 素养 是 信息 化 社会 人 才 素 质 的 重要 组 成 部 分 ,一 个 信息 检索 素养 良好 的 人 ， 
其 判断 力 、 决 策 力 往 往 都 较 强 。 提 高 人 的 信息 检索 素养 ,是 为 了 更 好 地 开发 与 利用 信息 资 
源 , 是 培养 人 们 创新 能 力 的 基本 需要 ,也 是 学 习 、 实 践 、 创 新 创业 的 基础 。 学 生 利用 国内 外 
快速 发 展 的 教育 信息 化 环境 ,通过 检索 信息 、 收 集 信息 、 处 理 信 息 、 创 造 信息 ,实现 对 知 
识 的 探索 和 发 现 ,这 对 创新 人 才 的 培养 具有 重要 意义 。 
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“大 众 创业 ,万 众 创新 ”不 是 简单 的 口号 ,而 是 一 种 可 行 的 全 新 社会 理念 ,政府 政策 导 
向 和 高 等 教育 人 才 培 养 行动 计划 。 在 “大 众 创业 ,万 众 创新 ”的 时 代 背 景 下 ,创业 创新 日 益 
成 为 综合 国力 竞争 的 制高点 ,而 大 学 生 作为 最 具 创业 活力 和 潜力 的 群体 ,如 何 培养 其 创业 
创新 能 力 ,是 摆 在 当前 社会 发 展 面前 重要 而 紧迫 的 任务 。 面 对 我 国 经 济 新 常态 背景 下 的 
经 济 转型 升级 ,建设 创新 型 国家 和 创新 型 组 织 , 培 养 创新 创业 型 人 才 , 已 经 成 为 经 济 、 社 会 
和 教育 教学 发 展 的 基本 理念 。 高 等 学 校 是 现 阶 段 开 展 创业 创新 教育 的 主 阵地 。 创 新 创业 
教育 是 培养 创新 型 与 创业 型 人 才 的 重要 方式 ,是 大 学 生 树立 创新 创业 意识 、 践 行 创新 创业 
精神 、 形 成 创新 创业 能 力 的 重要 途径 。 

2015 年 国务 院 “ 国 发 23 号 文明 确 : 大 众 创业 、 万 众 创新 是 富民 之 道 、 强 国之 路 ,必须 
着 力 创立 大 众 创业 ,万众 创 新 的 新 引擎 。 同 时 国务 院 办 公 厅 《关于 深化 高 等 学 校 创 业 创 新 
教育 改革 的 实施 意见 》, 进 一 步 明 确 了 高 校 作为 青年 创业 创新 人 才 培 养 摇篮 的 责任 担当 ， 
深化 高 等 学 校 创业 创新 教育 改革 ,是 国家 实施 创新 驱动 发 展 战略 ,促进 经 济 发 展 提 质 增 效 
升级 的 迫切 需要 ,是 推进 高 等 教育 综合 改革 ,促进 高 校 毕 业 生 更 高 质量 创业 就 业 的 重要 举 
措 。 高 校 要 厚 植 大 众 创 业 、 万 众 创新 土壤 ,为 建设 创新 型 国家 提供 源源 不 断 的 人 才智 力 
支撑 。 

培养 学 生 的 创新 创业 能 力 , 就 必须 让 学 生 主 动 地 思考 问题 ,独立 自主 地 进行 研究 、 探 
索 、 讨 论 、 交 流 , 在 这 种 全 新 、 宽 松 的 学 习 氛 围 和 环境 中 ,学 生 必 须 具 备 较 高 的 信息 检索 
素养 。 信 息 检索 素养 较 高 的 学 生 , 能 增加 自我 学 习 生 涯 规划 和 创新 创业 行动 的 机 会 ,并 在 
问题 的 独立 思考 、 信 息 的 选择 与 评估 信息 的 利用 与 反馈 、 创 新 创业 实践 的 行动 与 总 结 过 
程 中 ,不 断 提高 学 习 效 率 与 质量 ,提升 创新 创业 精神 与 能 力 。 


1. 5.3 掌握 有 效 信息 和 开展 科研 与 学 术 活动 的 需要 

科研 与 学 术 工 作 具 有 继承 和 创造 的 双重 基因 ,科学 研究 的 双重 基因 特性 要 求 科 研 人 
员 在 探索 未 知 或 从 事 研究 工作 之 前 ,应 尽 可 能 地 占有 与 自身 研究 项 目 相关 的 大 量 信息 , 信 
息 检索 或 信息 查询 是 科学 研究 必 不 可 少 的 前 期 工作 ,而 良好 的 信息 检索 素养 则 是 开展 科 
学 研究 的 有 利 条 件 。 一 项 数据 表明 : 一 个 科研 人 员 的 工作 投入 会 有 50% 用 于 查阅 文献 资 
料 ,32% 用 于 研究 ,9. 3% 用 于 写 研究 报告 和 学 术 论 文 ,7.7% 用 于 思考 问题 ,也 就 是 说 科研 
人 员 有 一 半 以 上 的 时 间 是 参与 信息 交互 活动 。 查 阅 各 种 书刊 文献 资料 和 网 络 数据 库 是 科 
学 研究 的 重要 前 提 , 凡 是 从 事 科 学 研究 的 人 ,在 研究 每 一 个 新 的 课题 时 , 仅 在 查找 文献 资 
料 和 相关 数据 库 上 所 花费 的 时 间 ,就 要 占 研 究 课题 总 时 间 的 1/3, 如 果 别 人 已 经 为 你 把 这 
1/3 花费 了 ,这 就 会 使 科研 人 员 加 快 课题 的 研究 进程 。 如 果 别 人 已 经 查 到 某 人 正在 研究 
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此 课题 ,也 许 你 就 不 会 白白 地 浪费 时 间 去 做 重复 或 者 无 用 的 劳动 。 人 类 的 信息 、 知 识 、 
情报 和 文献 资源 每 天 都 在 急速 增长 。 由 于 信息 资源 数量 的 急速 增长 , 质 与 量 都 在 不 断 地 
变化 ,任何 一 个 科研 工作 者 要 想 在 茫茫 的 信息 资源 海洋 中 找到 自己 最 需要 的 信息 ,如 果 不 
具备 良好 的 信息 检索 素养 ,就 只 能 是 望 洋 兴叹 ,束手无策 。 如 果 在 大 学 时 期 具备 了 良好 的 
信息 素养 ,就 能 利用 信息 检索 原理 、 工 具 、 方 法 与 技术 ,充分 了 解 国内 外 、 前 人 和 他 人 对 你 
探索 和 研究 的 科研 问题 已 做 过 了 哪些 工作 ? 取得 了 什么 成 就 ? 发 展 动向 如 何 ? 这 样 才能 
做 到 心中 有 数 ,防止 重复 研究 与 资源 浪费 ,将 有 限 的 时 间 和 精力 用 于 创造 性 研究 。 课 题 选 
题 、 立 项 阶段 进行 有 效 的 信息 检索 ,有 助 于 理 清 思路 ,获得 正确 选 题 依据 ,提出 质量 高 、 
内 容 新 、 有 针对 性 的 研究 课题 。 只 有 这 样 ,才能 把 别人 的 终点 当成 自己 的 起 点 ,防止 重复 
劳动 , 少 走 弯路 。 

从 课题 确立 到 整个 科研 研究 过 程 , 以 及 科研 结束 的 成 果 鉴 定 等 整个 过 程 都 离 不 开 信 
息 检索 活动 的 支持 和 信息 检索 素养 基因 的 能 量 传递 ,以 判定 成 果 的 先进 性 、 科 学 性 和 实 
用 性 。 可 以 说 ,信息 检索 活动 在 整个 科研 过 程 中 占有 重要 的 位 置 。 信 息 检索 贯穿 了 科研 
工作 的 始终 ,是 科研 工作 的 重要 组 成 部 分 。 因 此 ,大 学 生 具 备 良 好 的 信息 素养 ,有 助 于 在 
校 期 间 的 研究 性 与 批判 性 学 习 , 也 有 助 于 在 校 期 间 积 极 参 与 各 类 大 学 生 科研 项 目 、 专 业 大 
赛 和 创新 创业 项 目 ( 例 如 各 级 各 类 大 创 项 目 、 各 种 课程 创新 实践 项 目 、 各 级 电子 设计 大 赛 
项 目 、 各 级 大 学 生计 算 机 设计 大 赛 项 目 等 ), 也 更 加 有 利于 就 业 后 积极 参与 工作 单位 的 各 
种 科研 项 目 。 

当 大 学 生 离 开学 校 从 事 工 作 单 位 的 科研 工作 时 ,良好 的 信息 检索 素养 将 有 助 于 他 们 
及 时 了 解 国内 外 最 新 的 专业 研究 动态 和 科研 成 果 , 与 国内 外 专家 学 者 及 同行 进行 交流 , 合 
理 地 制订 自己 的 研究 计划 和 科研 进程 ,与 工作 单位 的 实际 攻关 项 目 与 科研 任务 紧密 结合 
起 来 , 既 可 以 少 走 弯路 、 快 出 成 果 , 又 能 避免 不 必要 的 重复 研究 ,多 出 原创 性 科研 成 果 。 


1.5.4 提供 科学 方法 与 正确 决策 的 需要 

科技 .经济 .学 习 \ 数 字 化 生活 等 领域 的 管理 与 决策 ,同样 离 不 开 信息 检索 素养 的 支 
持 。 任 何 个 人 、 企 业 , 乃 至 国家 ,要 想 在 竞争 中 立足 ,都 必须 掌握 足够 可 靠 的 信息 ,并 利用 
它 进 行 科学 决策 ,才能 在 竞争 中 取胜 。 如 果 要 在 浩如烟海 的 信息 资料 中 盲目 地 寻找 自己 
需要 的 信息 ,自然 是 一 件 困难 的 事情 。 管 理 决策 必须 依赖 信息 检索 获取 准确 而 全 面 的 信 
息 , 才 能 保证 其 科学 性 、 公 正 性 与 正确 性 。 信 息 获取 成 功 的 基础 则 是 通过 科学 合理 的 信 
息 检索 获取 大 量 有 用 的 信息 。 在 激烈 的 市 场 竞 争 中 ,无 论 是 企业 还 是 国家 之 间 ,都 时 刻 关 
注 竞争 对 手 的 动向 ,力求 扬长 避 短 ,确立 自己 的 竞争 优势 ,这 种 竞争 的 根基 就 是 信息 的 竞 
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争 .“ 优 胜 劣 汰 , 适 者 生存 ?是 市 场 竞 争 的 自然 规律 。 商 场 如 战场 ,一 个 国家 、 一 个 机 构 、 
一 个 企业 要 想 在 激烈 的 市 场 竞争 中 立 于 不 败 之 地 ,首先 是 要 有 科学 的 决策 ,信息 竞争 是 进 
行 科 学 决策 的 重要 依据 。 企 业 在 市 场 中 要 不 断 开 发 新 产品 ,选择 投资 项 目 ,确定 营销 策 
略 , 这 一 切 都 离 不 开 准 确 及 时 的 竞争 信息 。 因 此 ,信息 竞争 是 企业 成 败 的 前 提 和 基础 ,是 
企业 决策 的 智囊 、 市 场 导 向 的 风向 标 、 市 场 投资 的 指示 灯 , 是 现代 企业 生存 发 展 的 战略 
武器 和 重要 保障 。 

起 源 于 国外 先进 且 大 型 的 检索 工具 与 检索 数据 库 , 例 如 美国 的 科学 引文 索引 (SCI)、 
工程 索引 CEI) 和 英国 的 科学 文摘 (SA) 与 世界 专利 索引 (WPI) 等 ,无 不 为 科学 决策 提供 了 
有 力 的 信息 检索 支撑 。 


1.5.5 终身 学 习 的 需要 

全 社会 已 普遍 形成 这 样 的 共识 : 唯 有 终身 学 习 , 才 能 培养 完善 的 人 ;只 有 具备 信息 检 
索 素 养 的 人 ,才能 实现 终身 学 习 , 成 为 信息 时 代 所 需要 的 学 习 型 与 创新 创业 型 人 才 。 

终身 学 习 是 信息 社会 对 人 才 教 育 与 个 人 发 展 的 基本 要 求 。 首 先 ,知识 本 身 具 有 发 展 
进步 性 。 大 学 生 在 校 期 间 所 学 的 知识 会 很 快 老 化 而 失效 ,况且 目前 知识 老化 的 速度 又 在 
日 趋 加 快 。 与 此 同时 ,科学 技术 转化 为 生产 力 的 速度 却 在 日 趋 加 快 ,从 发 明 创造 到 应 用 推 
广 的 周期 大 大 缩短 。 因 此 ,以 学 历 教育 为 目标 的 高 等 教育 不 再 是 各 国 高 等 学 校 的 中 心 任 
务 。 其 中 ,信息 检索 素养 是 大 学 生 离 开学 校 走向 社会 后 ,得 以 继续 发 展 和 进行 终身 学 习 的 
一 项 基本 功 。 

大 学 生 信息 检索 素养 教育 的 内 容 之 一 ,就 是 教会 学 生 掌握 知识 ,了 解 信 息 的 组 织 机 
理 ; 教 会 学 生 如 何 积累 学 习 资 料 与 学 习 资 源 , 如 何 利 用 各 种 文献 与 数据 库 工 具 , 如 何 利 用 
现代 信息 技术 搜索 、 查 询 、 组 织 各 种 电子 资源 和 网 络 信息 ;教会 学 生 如 何 评价 、 管 理 和 
利用 信息 ,使 学 生 具 有 独立 学 习 和 终身 学 习 所 必 备 的 技能 和 素质 。 因 此 ,信息 检索 素养 教 
育 是 人 们 终身 学 习 的 基本 需要 。 


本 章 小 结 


在 信息 时 代 的 今天 , 面 对 几 何 级 数 增长 的 海量 信息 资源 ,如 何 有 效 地 检索 、 获 取 、 评 
估 、 传 播 . 共 享 和 利用 信息 ,成 为 了 每 个 人 重要 的 基本 素养 和 能 力 要 求 。 作 为 信息 时 代 的 
大 学 生 , 要 重视 信息 检索 素养 的 知识 学 习 与 能 力 培养 。 在 校 大 学 生 信 息 检索 素养 的 理论 
知识 学 习 与 能 力 形成 ,在 很 大 程度 上 也 影响 着 大 学 生 今后 的 生存 与 发 展 (例如 终身 学 习 的 
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需要 )。 

信息 检索 素养 既是 个 体 查找 、 检 索 、 分 析 信息 的 信息 认识 能 力 , 也 是 个 体 整 合 ,利用 、 
处 理 、 创 造 信息 的 信息 应 用 能 力 。 具 体 描述 为 : 善于 根据 问题 分 析 自 身 的 信息 需求 (例如 
学 习 或 工作 需要 ) ,进而 确定 信息 来 源 并 使 用 有 效 的 检索 或 查找 方法 ,及 时 地 获取 需要 的 
信息 ;善于 整理 信息 、 分 析 评价 信息 ,善于 运用 信息 技术 处 理 信息 并 用 于 解决 问题 ;在 信息 
的 获取 、 处 理 . 共 享 、 使 用 的 过 程 中 有 良好 的 信息 意识 .信息 道德 和 强烈 的 社会 责任 心 ,有 
一 定 创新 .协作 和 服务 精神 。 

信息 检索 素养 包含 了 检索 技术 和 人 文 精 神 两 个 层面 的 意义 : 在 检索 技术 层面 上 , 信 
息 检 索 素 养 反 映 的 是 人 们 利用 信息 检索 的 意识 和 能 力 ; 在 人 文 层 面 上 ,信息 检索 素养 反映 
了 人 们 利用 信息 时 表现 出 来 的 品质 和 修养 (例如 信息 生成 与 利用 的 产权 意识 、 信 息 安 全 保 
护 意 识 、 不 良 信息 过 滤 与 免疫 网络 暴力 抵制 与 防护 、 杜 绝 抄袭 与 璋 穷 等 不 端 行为 )。 大 学 
生 要 想 在 信息 社会 中 更 好 地 生存 和 发 展 ,不 断 提 高 自身 的 学 习 、 工 作 和 生活 效率 就 必须 具 
备 良 好 的 信息 检索 素养 。 获 取 、 评 价 、 利 用 信息 资源 的 知识 和 能 力 , 已 经 在 大 学 生 的 学 习 
与 研究 .生活 与 娱乐 .实践 与 工作 等 环节 发 挥 着 越 来 越 重 要 的 作用 。 

大 学 生 信息 检索 素养 的 内 涵 可 以 包括 以 下 几 个 方面 。 

(1) 信息 检索 意识 。 信 息 检 索 素 养 教育 最 重要 的 一 点 是 培养 大 学 生 的 信息 检索 意 
识 , 即 要 求 大 学 生 具 有 一 种 使 用 计算 机 与 其 他 信息 技术 来 解决 自己 学 习 、 工 作 和 生活 中 信 
息 需 求 问 题 的 意识 。 

(2) 信息 检索 伦理 修养 。 大 学 生 能 够 遵循 信息 应 用 的 伦理 道德 规范 ,不 从 事 非法 活 
动 , 同 时 也 知道 如 何 防止 计算 机 病毒 和 其 他 计算 机 犯罪 活动 ,在 法 律 法 规 允 许 的 范围 内 合 
理 合法 的 检索 与 利用 信息 资源 。 

(3) 信息 检索 技术 知识 。 掌 握 信 息 检索 技术 的 原理 ` 名 词 术语 与 基本 应 用 ,了 解 信息 
检索 技术 发 展 与 作用 ,具有 一 定 的 信息 检索 技术 知识 ,把 握 信 息 检索 技术 的 发 展 与 应 用 。 

(4) 具有 一 定 的 信息 检索 能 力 。 即 查询 ,评价 和 利用 信息 以 提高 学 习 、 工 作 和 生活 效 
率 的 能 力 。 能 利用 信息 技术 ,获取 自己 所 需要 的 信息 ,评价 和 分 析 所 得 到 的 信息 ,并 有 效 
地 利用 于 自身 的 学 习 、 工 作 和 生活 中 。 

信息 检索 素养 具有 普遍 性 、 层 次 性 、 实 践 性 与 操作 性 、 发 展 性 等 显著 特征 。 信 息 检索 
素养 主要 包括 信息 检索 意识 、 信 息 检 索 能 力 、 信 息 检索 道德 、 信 息 知识 、 信 息 观念 、 信 
息 心 理 等 方面 ,而 信息 检索 意识 (想到 没 想到 ,信息 需求 的 有 效 获取 意识 )、 信 息 检索 能 力 
(相应 技能 的 会 不 会 ) 、 信 息 检索 道德 (信息 共享 与 利用 的 合 规 合法 性 ) 又 是 其 中 的 主要 
方面 。 
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我 国 当 代 大 学 生 的 信息 检索 素养 现状 是 : 信息 检索 意识 较 弱 、 获 取信 息 的 检索 能 力 
不 强 、 加 工 与 利用 信息 的 能 力 较 差 、 信 息 道德 和 信息 法 规 意识 急需 培养 。 大 学 生 信 息 检 索 
素养 教育 与 培养 的 意义 主要 包括 信息 化 社会 对 大 学 生 的 素质 需求 .创新 创业 能 力 培养 的 
需要 、 掌 握 有 效 信息 和 开展 科研 与 学 术 活动 的 需要 、 提 供 科学 方法 与 正确 决策 的 需要 、 终 
身 学 习 的 需要 。 


本 章 思考 与 练习 题 


. 举例 说 明 信 息 检索 素养 含义 。 
. 举例 并 用 “网 络 截 图 ”说 明 你 使 用 某 一 查询 工具 的 方法 与 检索 结果 。 
美国 图 书馆 协会 前 明 的 学 生 具 备 信息 检索 素养 的 基本 要 求 包括 哪些 方面 的 内 容 ? 
. 信息 检索 素养 具有 哪些 明显 特点 ? 
在 信息 查询 获取、 共享 与 利用 过 程 中 ,如 何 做 一 个 “合格 网 民 ”? 
. 信息 检索 素养 主要 包括 哪些 内 容 ? 
. 大 学 生 信 息 检索 素养 是 否 有 评价 标准 ,可 以 从 哪些 方面 去 评价 ? 
. 简 述 我 国 当代 大 学 生 的 信息 检索 素养 状况 。 
. 大 学 生 信 息 检索 素养 教育 与 培养 有 哪些 重要 意义 ? 
10. 查询 三 篇 关于 “大 学 生 信息 检索 素养 教育 ?方面 的 学 术 文 章 , 写 300 字 左右 的 
体会 。 
11. 作为 网 络 时 代 的 大 学 生 ,你 认为 应 该 具备 什么 样 的 信息 检索 意识 ? 
12. 作为 新 时 代 的 大 学 生 , 你 认为 应 该 具备 什么 样 的 信息 检索 道德 品质 ? 


Co 和 NP Lr- 
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信息 社会 是 一 个 信息 发 现 . 信 息 挖掘 、` 检 索 与 利用 、 传 播 与 分 享 的 信息 化 社会 ,人 们 有 
可 能 充分 发 掘 和 自由 利用 社会 共有 的 海量 信息 资源 ,并 使 之 成 为 生产 发 展 . 生 活 质量 提高 
和 开展 终身 学 习 过 程 的 核心 要 素 。 也 正 是 基于 信息 的 人 类 共享 性 和 日 益 发 达 的 信息 技术 
手段 ,社会 信息 资源 的 保密 、 保 护 和 专用 及 其 个 人 信息 安全 受到 了 更 严峻 的 挑战 。 日 益 发 
达 的 信息 技术 手段 和 无 处 不 在 的 网 络 化 环境 ,已 经 可 以 让 人 们 轻而易举 而 又 不 露 痕迹 地 
检索 、 获 取 、 共 享 和 利用 各 种 信息 资源 或 信息 产品 ,这 就 为 各 种 信息 化 犯罪 创造 了 条 件 ; 人 
们 的 信息 检索 与 利用 活动 迫切 需要 形成 更 加 广泛 和 深入 的 知识 产权 法 律 意识 ,也 是 信息 
检索 道德 的 内 在 要 求 。 

由 于 信息 是 知识 产权 活动 的 一 种 客观 反映 形式 ,而 当代 大 学 生 作为 信息 社会 信息 检 
索 与 利用 过 程 中 最 具 活 力 的 生力军 ,需要 具备 较 高 的 知识 产权 法 律 意识 ,尊重 知识 产权 ， 
杜绝 、 避 免 知识 产权 侵害 和 各 种 网 络 化 信息 犯罪 发 生 , 共 建 公平 开放、 和谐 与 守法 的 信息 
化 与 网 络 化 环境 。 这 不 仅 是 顺利 和 合法 开展 信息 检索 与 利用 活动 的 前 提 与 根本 保证 ,也 
是 当代 大 学 生 信 息 检索 素养 教育 的 内 在 要 求 。 


2.1 信息 与 知识 产权 


2,1.1 信息 

1. 信息 社会 

1) 信息 社会 的 概念 及 特点 

信息 社会 又 称 信息 化 社会 ,也 称 信息 时 代 。 它 是 与 工业 化 社会 相对 应 的 一 种 称谓 ,是 
一 种 以 信息 为 标志 ,以 信息 技术 为 基础 ,以 信息 产业 经 济 为 支柱 的 社会 。 信 息 社 会 的 主要 
特点 有 以 下 四 个 方面 : 

(1) 在 信息 社会 里 起 决定 作用 的 不 是 资本 而 是 信息 和 知识 ,信息 成 为 比 材料 或 能 源 
更 重要 的 资源 。 

(2) 价值 的 增长 不 仅 通过 劳动 ,更 重要 的 是 通过 信息 与 知识 的 掌握 与 创新 。 
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(3) 人 们 更 加 关心 和 注重 发 展 性 需要 ,因而 预测 .检索 评价、 传播 与 利用 信息 的 重要 
性 凸显 。 

(4) 以 信息 价值 的 生产 、 获 取 、 传 递 . 服 务 与 利用 为 中 心 的 信息 产业 经 济 快速 成 长 并 
日 益 强 盛 。 

2) 信息 社会 的 三 个 核心 要 素 

(1) 信息 技术 带动 高 新 技术 发 展 

本 世纪 以 来 ,人 类 在 互联 网 .新 材料 .新 能 源 、. 生 物 、 空 间 海洋 .航空 航天 等 高 技术 领 
域 取 得 重大 突破 和 快速 进展 ,其 中 信息 技术 的 发 展 最 为 迅速 。 以 信息 技术 为 先导 引发 的 
高 新 技术 崛起 ,构成 了 当代 高 科技 发 展 的 主流 ;而 且 信 息 技术 及 其 成 果 向 社会 各 个 领域 的 
渗透 和 广泛 利用 (例如 移动 互联 网 “互联 网 十 ”等 信息 技术 ) ,促进 了 高 新 技术 的 深度 开发 
与 交叉 融合 ,也 为 知识 产权 法 律 机 制 运行 提供 了 更 广阔 的 技术 基础 。 

(2) 信息 产业 促进 传统 产业 结构 加 速 调整 

包括 信息 设备 制造 业 与 信息 服务 业 在 内 的 信息 产业 的 飞速 发 展 ,不 仅 大 大 加 强 并 迅 
速 提高 了 第 三 产业 的 质 和 量 ,而且 促 进 了 第 一 产业 和 第 二 产业 的 深度 调整 。 信 息 产 业 实 
现 了 社会 产业 结构 的 再 调整 与 革新 ,其 中 信息 服务 业 发 展 水 平 则 成 为 一 个 国家 .一 个 地 区 
或 者 一 个 行业 发 展 程度 的 重要 标志 。 而 市 场 经 济 中 信息 产业 和 信息 经 济 的 发 展 ,更 需要 
包括 知识 产权 法 律 在 内 的 国家 政策 和 法 律 约束 来 引导 和 规范 全 社会 的 信息 活动 与 个 体 的 
各 种 信息 行为 。 

(3) 信息 资源 引导 经 济 集约 化 

经 济 强国 主要 利用 全 世界 范围 内 的 广泛 信息 资源 形成 经 济 集约 发 展 ,而 我 国 经 济 
发 展 相 对 比较 粗放 的 重要 原因 之 一 就 是 信息 具有 资源 替代 功能 。 信 息 技术 的 发 展 为 社 
会 信息 资源 的 开发 与 利用 提供 了 高 效 .便利 ,平民 化 的 普 惠 条 件 。 在 信息 资源 数量 急剧 
膨胀 的 网 络 化 环境 中 ,信息 资源 的 管理 与 利用 就 显得 尤为 重要 , 它 成 为 经 济 集约 化 发 展 
的 一 个 关键 因素 所 在 。 整 个 信息 的 检索 与 利用 过 程 都 应 当 遵守 的 规则 之 一 ,就 是 尊重 
知识 产权 、 遵 循 知识 产权 法 律 , 也 就 是 信息 的 检索 与 利用 活动 必须 在 依 规 合 法 的 前 提 下 
进行 。 

2. 信息 的 含义 

“信息 ”一 词 在 英文 ,法文 、 德 文 .西班牙 文中 均 是 “information”, 日 文中 为 “情报 ”, 我 
国 台 湾 称 为 “资讯 "我国 古 代用 的 是 “消息 ”。 作 为 科学 术语 最 早出 现在 哈 特 莱 CR. V. 
Hartley) 于 1928 年 撰写 的 《信息 传输 ) 一 文中 。 信 息 , 通 俗 地 称 为 音讯 、 消 息 :通信 系统 传 
输 和 处 理 的 对 象 , 泛 指 人 类 社会 传播 的 一 切 内 容 。 人 通过 获得 .识别 自然 界 和 社会 的 不 同 
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信息 来 区 别 不 同事 物 , 得 以 认识 和 改造 世界 。 在 一 切 通信 和 控制 系统 中 ,信息 是 一 种 普遍 
联系 的 形式 。1948 年 ,数学 家 香农 在 题 为 (通信 的 数学 理论 ?的 论文 中 指出 :“ 信 息 是 用 来 
消除 随机 不 定性 的 因素 ”, 这 一 定义 被 人 们 看 做 是 经 典 性 定义 并 加 以 引用 。 美 国 数学 
家 控制 论 的 奠基 人 诺 伯 特 ， 维 纳 在 他 的 《控制 论 一 一 动物 和 机 器 中 的 通信 与 控制 问 
题 ) 中 认为 ,信息 是 我 们 在 适应 外 部 世界 ,控制 外 部 世界 的 过 程 中 同 外 部 世界 交换 的 内 
容 的 名 称 。 

信息 是 事物 运动 的 一 种 状态 与 方式 ,是 物质 的 一 种 属性 。 

信息 不 同 于 消息 ,消息 只 是 信息 的 外 过 ,信息 则 是 消息 的 内 核 ;信息 不 同 于 信号 ,信号 
是 信息 的 载体 ,信息 则 是 信号 所 载荷 的 内 容 ; 信 息 不 同 于 数据 ,数据 是 记录 信息 的 一 种 形 
式 , 同 样 信息 也 可 以 用 文字 或 图 片 来 表述 。 

总 之 , “信息 是 事物 运动 的 状态 与 方式 "这 个 定义 具有 和 较 大 的 普遍 性 , 它 不 仅 能 涵盖 所 
有 其 他 的 信息 定义 ,还 可 以 通过 引入 约束 条 件 转换 为 其 他 的 信息 定义 。 例 如 ,引入 知识 主 
体 这 一 约束 条 件 , 可 以 转化 为 认识 论 上 的 信息 定义 , 即 信 息 是 认识 主体 所 感知 或 所 表述 的 
事物 的 运动 状态 与 方式 。 层 层 引 入 的 约束 条 件 越 多 ,信息 的 内 涵 就 越 丰富 ,适用 范围 也 越 
来 越 小 ,由 此 构成 相互 间 有 一 定 联系 的 信息 概念 体系 。 

3. 信息 的 类 型 

信息 的 类 型 可 以 从 不 同 角度 来 认识 。 了 解 信息 的 类 型 有 助 于 人 们 加 深 对 信息 内 涵 及 
其 特征 的 认识 ,丰富 信息 检索 与 利用 的 知识 。 

(1) 按 产生 的 客体 区 分 。 从 产生 信息 的 客体 的 性 质 来 分 ,信息 可 分 为 自然 信息 、 生 物 
信息 、 机 器 信息 和 社会 信息 。 

(2) 按 存在 的 形态 区 分 。 信 息 的 形态 可 分 为 媒介 形态 和 符号 形态 。 信 息 的 媒介 形态 
以 其 所 依附 的 载体 为 依据 ,可 分 为 文献 信息 、 声 音信 息 、 电 子 信息 等 ;信息 的 符号 形态 是 指 
用 于 指 代 客 观 事物 的 字母 .电码 .语言 符号 等 象征 物 ,可 进一步 分 为 语言 符号 和 非 语言 符 
号 。 语 言 符号 是 信息 传播 的 主要 象征 ,是 人 与 人 之 间 进 行 交流 的 工具 ,如 作为 汉语 书面 符 
号 的 文字 、 汉 语 拼音 和 汉语 速记 。 非 语言 符号 在 人 际 传播 中 具有 表露 情感 .替代 自然 语 
言 、 辅 佐 语 义 表 达 和 调节 行为 的 作用 。 

(3) 信息 分 类 还 有 其 他 的 划分 方法 。 如 以 信息 的 记录 符号 为 依据 ,可 分 为 语音 信息 、 
图 像 信息 ,文字 信息 、 视 频 信息 ,音频 信息 等 ;以 信息 的 运动 状态 为 依据 ,可 分 为 连续 信息 、 
离散 信息 ;以 信息 的 加 工 层次 而 论 , 可 分 为 初始 信息 和 再 生 信息 ,后 者 是 对 初始 信息 进行 
分 析 、 加 工 处 理 后 的 结果 ,有 时 称 为 知识 信息 ,也 是 信息 检索 的 主要 对 象 (例如 图 书 、 期 刊 、 
论文 .报告 .专利 、 标 准 、 手 册 、 指 南 、 电 子 数 据 库 、 网 络 数据 库 等 )。 
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4. 信息 的 特点 

(1) 无 穷 性 。 信 息 是 物质 存在 的 一 种 方式 或 活动 状态 ,而 物质 处 于 无 穷 的 运动 之 中 ， 
这 就 决定 了 信息 的 无 限 性 。 物 质 和 能 量 是 无 穷 的 ,信息 同样 也 取 之 不 尽 ,用 之 不 竭 ,人 类 
将 依赖 这 三 大 资源 生存 和 不 断 发 展 。 

(2) 可 辨识 性 。 信 息 可 以 通过 人 的 各 种 感官 直接 辨认 ,也 可 以 用 各 种 技术 手段 间 
接 识 别 。 因 为 信息 的 载体 形式 是 多 样 化 的 ,因此 不 同 的 信息 可 以 用 不 同 的 方法 进行 
辨认 。 

(3) 可 转换 性 。 信 息 可 以 从 一 种 载体 形式 转换 为 男 一 种 形式 ,如 物质 信息 可 转换 为 
语言 .文字 图形、 记号、 代码 ,信号 等 。 每 个 信息 载体 之 间 又 可 互相 转换 ,可 以 从 语言 转化 
为 其 他 代码 ,从 图 形 转化 为 文字 ,从 纸 质 载体 转换 为 网 络 数据 库 等 。 

(4) 可 存储 性 。 人 类 可 以 用 大 脑 将 信息 存储 为 “内 语言 ”, 这 是 一 种 隐 性 存储 形式 ,也 
可 用 机 器 设备 存储 信息 ,如 纸张 .光盘 、 磁 盘 、 网 络 服务 器 等 。 

(5) 可 扩充 与 紧缩 性 。 事 物 不 断 运动 ,信息 不 断 弃 旧 更 新 ,社会 的 信息 总 量 在 不 断 增 
添 与 扩充 过 程 中 ,而 经 由 人 们 对 信息 的 收集 、 加 工 、 检 索 、 传 播 、 概 括 、 融 合 、 应 用 、 再 创造 ， 
又 可 以 将 信息 容量 大 大 收缩 ,以 利于 进一步 发 挥 信息 的 潜能 。 

(6) 可 替代 性 。 准 确 而 高 效 使 用 信息 ,可 以 进一步 发 挥 其 效力 ,减少 各 种 社会 工作 、 
学 习 和 生活 的 实际 耗费 ,例如 资金 .智力 、 体 力 、 物 质 和 能 源 等 实际 消耗 得 以 显著 降低 , 因 
此 在 很 大 程度 上 ,信息 的 可 蔡 代 性 特征 十 分 显著 。 

(7) 可 传递 性 。 这 是 信息 的 重要 本 质 属性 之 一 ,信息 的 功能 与 作用 是 通过 传递 特性 
实现 的 。 信 息 也 只 有 通过 传递 ,才能 发 挥 其 "消除 事物 不 确定 性 ”的 功能 。 

(8) 可 分 享 性 。 可 分 享 性 也 称 为 共享 性 ,信息 可 以 被 分 享 , 除 了 一 些 特定 的 信息 和 一 
些 特定 的 人 群 外 ,在 一 定 规模 内 被 传递 出 来 的 信息 一 般 是 这 个 范畴 内 的 每 一 个 个 体 都 可 
以 分 享 的 。 

(9) 可 组 合 性 。 若 干 信息 被 人 有 意 无 意 地 组 合 或 融合 起 来 ,就 会 形成 与 本 来 信息 不 
同 的 新 信息 。 例 如 蒙太奇 就 是 一 种 信息 的 组 合 ,蒙太奇 来 自 于 法 语 Montage, 原意 为 构 
成 .装配 ,是 指 “ 在 影视 作品 的 创作 中 将 一 个 个 镜头 ,依据 一 定 的 人 逻辑 关系 任意 组 接 在 一 
起 ,以 表达 需要 的 视频 意义 ”。 这 一 个 个 的 分 镜头 就 是 一 个 个 分 支 信息 ,进行 不 同 的 组 合 
能 发 生 不 同 的 意义 和 结果 。 

(10) 非 完 整 性 。 任 何 信息 都 不 可 能 ,也 不 必要 反映 出 客观 对 象 的 各 个 方面 , 它 只 是 
有 物 的 某 一 方面 的 某 一 种 变化 的 反映 和 变化 。 


pt 
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2.1.2 知识 产权 

1. 知识 产权 的 含义 

知识 产权 主要 是 指 人 们 对 其 从 事 智力 活动 而 产生 的 成 果 所 依法 享有 的 专 有 权利 ,是 
一 种 无 形 财 产权 。 知 识 产权 是 人 类 的 发 明 创造 .智力 活动 成 果 和 法 律 活动 的 结合 与 交叉 ， 
是 人 们 依据 国家 法 律 对 自己 的 智力 活动 而 获得 的 成 果 所 享有 的 权利 。 知 识 产权 是 一 种 看 
不 见 、 摸 不 着 的 无 形 财产 权 , 它 能 通过 使 用 和 有 偿 转 让 等 多 种 形式 创造 财富 ,让 它 的 拥有 
者 从 中 受益 。 世 界 贸易 组 织 在 (与 贸易 有 关 的 知识 ) 中 规定 ,知识 产权 包括 : 四 著作 权 和 
邻接 权 ; 加 商标 ; @ 地 理 标志 ; @ 工 业 品 外 观 设 计 ; @ 专 利 ; @ 集 成 电路 布 图 设计 ; @ 未 
公开 的 信息 。 

2. 知识 产权 的 主要 特点 

(1) 专 有 性 。 它 又 可 称 独占 性 排他性、 垄断 性 ,是 其 权利 人 所 依法 拥有 的 专 有 权利 ， 
他 人 不 得 侵犯 。 

(2) 地 域 性 。 它 是 指 国家 确认 和 保护 的 知识 产权 ,只 在 该 国 的 地 域 范围 内 有 效 , 对 其 
他 国家 不 发 生 法 律 效力 。 

(3) 时 限 性 。 知 识 产 权 一 般 只 在 法 律 规定 的 期 限 内 有 效 。 过 了 有 效 期 ,相应 的 智力 
劳动 成 果 就 成 为 任何 人 都 能 合法 使 用 的 社会 公共 财富 。 

(4) 无 形 性 。 知 识 产 权 与 有 形 财 产 不 同 ,没有 具体 的 形体 。 尽 管 知识 产权 需要 依附 
于 有 形 载体 而 存在 ,但 无 论 是 智力 创造 或 知识 成 果 本 身 , 还 是 附 载 于 工商 标志 的 信誉 都 是 
“无 形 ” 的 。 

(5) 法 定性 。 知 识 产 权 的 取得 一 般 要 履行 相应 的 行政 审批 程序 (例如 各 种 类 型 专 
利 ) ,但 著作 权 和 商业 秘密 除外 。 

3. 知识 产权 的 性 质 

知识 产权 是 一 种 民事 权利 。 它 所 反映 和 调整 的 社会 关系 是 平等 主体 的 公民 、 法 人 之 
间 的 财产 关系 ,从 而 具备 了 民事 权利 的 本 质 特征 。 知 识 产 权 的 发 生 , 行 使 和 保护 应 适用 民 
法 的 基本 原则 和 民事 规范 ,如 民事 主体 、 客 体 、 内 容 、 法 律 事实 、 民 事 法 律 行为 等 。 

知识 产权 同 其 他 民事 权利 一 样 , 是 一 种 私 权 。 私 权 是 与 公 权 相对 应 的 一 个 概念 , 指 的 是 
私人 (包括 自然 人 和 法 人 ) 享 有 的 各 种 民事 权利 。 知 识 产 权 具 有 私人 财产 权利 的 基本 特性 。 

知识 产权 是 一 种 不 同 于 财产 所 有 权 的 无 形 产权 。 世 界 知识 产权 组 织 认为 : 知识 产权 
与 有 形 财产 的 最 主要 的 不 同 点 在 于 ,对 于 诸如 一 张 桌子 ,所 有 人 可 以 通过 占有 它 而 基本 达 
到 保护 自己 的 财产 不 受 侵害 的 目的 ;而 对 于 诸如 一 项 发 明 、 一 部 作品 或 一 个 商标 ,所 有 人 
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基本 上 不 能 通过 占有 它们 而 达到 保护 它们 不 受 侵害 的 目的 。 

知识 产权 客体 的 非 物质 性 是 知识 产权 区 别 于 财产 所 有 权 的 本 质 特 性 。 知 识 产 权 的 客 
体 即 一 定 的 信息 内 容 , 是 没有 形体 的 、 非 物质 性 的 。 客 体 的 非 物 质 性 是 知识 产权 的 本 质 属 
性 所 在 。 当 我 们 买卖 有 形 商 品 时 ,转让 的 是 该 有 形 商 品 的 财产 所 有 权 , 而 财产 所 有 权 的 客 
体 就 是 该 有 形 商品 本 身 ,我 们 可 以 通过 占有 来 实现 转让 。 而 转让 知识 产权 时 ,转让 的 是 知 
识 产 权 本 身 , 而 不 是 载 有 信息 的 有 形 载 体 的 财产 所 有 权 , 载 体 的 转移 并 不 等 于 知识 产权 的 
转移 ,知识 产权 的 转让 也 无 须 载体 的 转移 。 知 识 产 权 的 客体 是 非 物 质 性 的 有 关 信 息 ( 例 如 
专利 领域 中 的 技术 方案 、 著 作 权 领 域 中 的 作品 、 网 络 原创 性 视 音频 信息 等 )。 作 为 财产 所 
有 权 客 体 的 物体 ,是 可 以 被 特定 人 占有 的 ,而 作为 知识 产权 客体 的 信息 (如 技术 方案 、 商 标 
标识 或 作品 等 ), 则 不 可 能 被 特定 人 占有 (它们 可 能 被 无 限 地 查询 、 复 制 、 传 播 和 分 享 ), 因 
此 可 能 被 无 限 数量 的 人 占有 。 例 如 , 某 人 在 其 购 得 的 一 张 光盘 中 刻录 了 某 个 计算 机 应 用 
软件 ,他 通过 合法 占有 这 张 光盘 而 成 为 财产 所 有 权 人 ,但 绝 不 会 因 其 再 次 或 多 次 刻录 ( 复 
制 ) 该 软件 ,就 可 以 “占有 ”在 其 光盘 中 的 软件 的 知识 产权 。 

4. 信息 对 于 知识 产权 的 意义 表现 

(1) 信息 是 知识 产权 活动 的 一 种 反映 。 知 识 产 权 是 一 种 人 类 法 律 活动 ,作为 一 种 客 
观 事物 , 它 是 人 类 社会 的 一 种 客观 存在 现象 。 信 息 既 是 这 种 社会 客观 存在 的 表现 形式 ,也 
是 对 这 种 客观 事物 的 反映 。 

(2) 信息 是 知识 产权 现象 的 表述 。 知 识 产权 现象 不 能 够 自我 显示 和 表述 ,信息 在 知 
识 产 权 发 生 与 发 展 中 同时 产生 ,信息 所 要 表示 的 目的 是 表达 和 显现 知识 产权 作为 客观 事 
物 的 存在 ,因而 这 种 信息 是 知识 产权 的 重要 属性 之 一 。 

(3) 信息 是 人 们 认识 知识 产权 的 中 介 。 人 们 在 从 事 政治 、 经 济 、 技 术 等 活动 中 都 要 接 
和 触 和 利用 知识 产权 ,而 人 们 认识 知识 产权 现象 则 必须 通过 显示 知识 产权 存在 方式 的 信息 ， 
因而 人 类 活动 离 不 开 信息 ,信息 是 沟通 认识 主体 和 认识 客体 的 中 介 和 桥梁 ,是 人 们 认识 和 
利用 知识 产权 的 必要 途径 。 


2.1.3 知识 产权 信息 

1. 知识 产权 信息 的 含义 

知识 产权 信息 是 表征 知识 产权 属性 的 信息 ,这 种 属性 既 包括 知识 产权 作为 整体 的 属 
性 ,又 包括 知识 产权 内 各 种 具体 智力 成 果 与 权利 的 属性 ,同时 知识 产权 信息 又 是 表达 知识 
产权 保护 客体 内 含 的 信息 , 它 包 括 有 专利 信息 、 商 标 信息 、 著 作 权 信 息 、 技 术 合 同 信 息 、 涉 
及 知识 产权 业务 的 竞争 信息 等 。 因 而 ,知识 产权 信息 概念 可 以 包含 两 层 含义 。 
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(1) 知识 产权 保护 客体 的 内 含 信息 。 专 利文 献 商标 文献 .著作权 作品 中 所 包含 的 信 
息 以 及 工业 产权 与 著作 权 开 发 .交流 、 传 播 中 的 信息 ,都 是 这 种 客体 内 含 信息 。 

(2) 知识 产权 的 “成 长 性 ”信息 。 这 种 信息 主要 是 指 知识 产权 的 产生 发展、 变更 中 所 
发 生 的 信息 。 

2. 知识 产权 信息 的 一 般 结构 

(1) 信息 内 容 。 指 由 知识 产权 信息 所 表述 的 各 种 知识 产权 及 其 客体 的 内 容 。 

(2) 信息 载体 。 知 识 产 权 信 息 载 体 既 有 物质 材料 载体 ,又 有 人 工 载 体 ,还 包括 实物 载 
体 、 大 众 媒体 等 。 

(3) 信息 符号 。 一 切 信息 符号 都 可 作为 知识 产权 信息 符号 。 例 如 文字 、 图 形 、 代 码 、 
音频 、 视 频 、 语 言 等 。 

3. 知识 产权 信息 的 本 质 特性 

根据 上 述 对 信息 的 一 般 描述 和 信息 对 知识 产权 的 意义 ,我 们 可 以 这 样 来 描述 知识 产 
权 信息 的 本 质 : 知识 产权 信息 是 知识 产权 存在 方式 和 存在 状态 的 表述 和 反映 ,知识 产权 
信息 是 知识 产权 的 重要 属性 之 一 ,是 显示 知识 产权 存在 的 一 种 特性 ,知识 产权 信息 又 是 人 
们 认识 和 利用 知识 产权 的 中 介 。 

知识 产权 信息 具有 信息 的 一 般 特 征 : 中 普遍 性 , 即 知识 产权 信息 广泛 存在 于 知识 产 
权 的 各 个 环节 之 中 。 四 无 限 性 , 即 知识 产权 信息 可 以 再 生 , 可 以 不 断 地 开发 与 利用 。 回 特 
殊 商 品 性 ,知识 产权 信息 不 仅 具 有 价值 和 使 用 价值 .而 且 其 价值 在 通过 交换 过 程 实现 后 却 
并 不 失去 使 用 价值 。@ 载 体 性 , 即 知 识 产 权 信息 总 是 依附 于 一 定 的 载体 而 存在 。@ 共 享 
性 , 即 知识 产权 信息 可 以 被 众多 的 使 用 者 所 共享 。@ 可 伸缩 性 , 即 知识 产权 信息 可 以 根据 
需要 加 以 控制 ,可 扩大 或 缩小 而 内 容 不 变 等 。 


2.1.4 知识 产权 信息 的 概念 特征 

在 法 律 上 和 在 现实 社会 经 济 活动 中 ,知识 产权 都 是 一 个 抽象 性 、 概 括 性 的 概念 , 它 是 
对 专利 权 、 商 标 权 著作权 (包括 软件 著作 权 等 ) 以 及 后 来 扩展 到 的 各 种 智力 成 果 权 (其 至 
延 及 反 不 正当 竞争 行为 ) 的 一 种 宏观 概括 和 哲学 意义 的 升华 。 知 识 产 权 信息 也 具有 这 种 
概念 特征 ,在 法 律 上 人 们 具体 引用 的 、 在 经 济 交往 与 文化 交流 中 人 们 具体 涉及 的 ,都 是 各 
种 具体 知识 产权 信息 ,如 专利 信息 、 商 标 信息 、 著 作 权 信息 等 ,因而 ,知识 产权 信息 是 对 这 
些 具体 知识 产权 的 哲学 概括 和 升华 ;专利 信息 、 商 标 信息 等 为 知识 产权 信息 的 总 结 提 供 了 
条 件 、 素 材 和 具体 内 容 , 知 识 产权 信息 则 是 对 专利 权 、 商 标 权 、 著 作 权 等 发 生 与 发 展 过 程 中 
发 生 的 信息 的 抽象 规定 。 它 不 仅 代表 着 人 类 有 关 知 识 产 权 信 息 的 概念 产生 ,而 且 有 利于 
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人 们 确认 知识 产权 的 客观 存在 方式 和 状态 ,并 且 知 识 产 权 信息 也 是 对 知识 产权 结构 及 内 
容 体系 的 自我 完善 。 


2.1.5 知识 产权 信息 的 内 容 

知识 产权 信息 是 关于 知识 产权 保护 客体 内 含 的 信息 ,同时 又 是 有 关 知识 产权 权利 的 
信息 ,因而 它 有 着 十 分 丰富 的 内 容 。 

1. 人 类 认识 信息 

知识 产权 保护 客体 涉及 人 类 科学 技术 、 文 学、 艺术 、 商 业 活 动 领域 ,是 有 关 人 类 在 这 些 
领域 从 事 智力 劳动 所 创造 的 认识 成 果 , 因 而 知识 产权 信息 首先 是 人 类 有 关 科技 、 文 学 、 艺 
术 、 商 业 活 动 的 认识 信息 。 

2. 法 律 保护 信息 

知识 产权 信息 基于 法 律 活动 而 存在 ,因而 它 必 然 表现 与 显示 法 律 活动 的 存在 状态 。 

3. 知识 产权 贸易 信息 

(1) 知识 产权 贸易 主体 信息 。 

(2) 知识 产权 贸易 标的 信息 。 

(3) 知识 产权 贸易 方式 信息 。 

(4) 知识 产权 经 营 规则 信息 。 

(5) 知识 产权 价值 计量 信息 等 。 

4. 智力 成 果 的 形象 信息 

知识 产权 客体 往往 借助 于 具体 事物 ,形象 地 表达 设计 、 开 发 与 创造 思想 ,因而 知识 产 
权 信息 是 一 种 丰富 的 形象 信息 。 

5. 信息 知识 产权 的 各 种 载体 

知识 产权 信息 具有 流动 性 , 它 既 存 在 于 法 律 管理 部 门 的 内 部 保存 或 面向 社会 公开 的 
各 类 文件 之 中 ,又 存在 于 缩微 文档 、 机 读数 据 库 和 互联 网 之 中 ,同时 还 存在 于 实物 商品 ,市 
场 销售 之 中 ,因而 知识 产权 信息 载体 形式 多 样 ,具体 包括 的 各 种 载体 有 : 四 印刷 型 文献 ; 
@ 缩 微 文献 ; @ 机 读 电 子 文献 ; @ 网 络 数 据 库 。 


2.2 信息 检索 与 利用 的 法 律 规范 和 信息 道德 


不 同 的 信息 主体 ,如 国家 、 组 织 和 个 人 ,享有 不 同 的 信息 权利 ,也 承担 着 不 同 的 义务 。 
信息 时 代 的 数字 化 技术 和 网 络 化 发 展 ,在 一 定 程度 上 改变 了 人 们 的 价值 观 和 伦理 观 , 驱 使 
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某 些 信息 需求 者 为 达到 目的 而 不 异动 用 一 切 技术 手段 ,包括 非法 的 或 介 于 合法 与 非法 之 
间 “ 打 擦边球 ”的 方式 去 发 现 、 评 估 、 检 索 、 获 取 、 占 有 和 使 用 信息 资源 。 

作为 当代 大 学 生 , 通 过 各 种 信息 检索 技术 手段 以 满足 自身 不 断 增长 的 信息 需求 ,是 时 
代 的 要 求 与 必然 趋势 ,但 前 提 是 不 能 侵害 他 人 或 组 织 的 正当 知识 产权 利益 ,不 得 干扰 或 危 
害 和 谐 的 信息 资源 利用 环境 和 信息 共享 秩序 。 在 获取 与 利用 信息 的 同时 ,信息 检索 与 利 
用 者 的 检索 手段 和 利用 方法 也 必须 置 于 法 律 和 道德 允许 的 范围 内 。 


2.2.1 信息 检索 与 利用 的 相关 法 律 制度 

1. 信息 检索 与 利用 的 法 律 属 性 

1) 信息 产权 的 法 律 属 性 

信息 产权 以 能 被 人 们 认识 ,感知 和 了 解 的 信息 为 客体 ,具有 价值 财产 ,并 能 给 所 有 者 
或 权利 人 带 来 经 济 利益 ,能 在 市 场 交 换 中 给 信息 拥有 者 或 信息 权利 人 带 来 物质 和 精神 财 
富 , 可 以 成 为 产权 交易 的 对 象 进入 资本 市 场 ;信息 产权 在 内 容 与 形式 方面 具备 法 律 规定 的 
要 件 , 所 有 人 或 其 他 信息 权利 人 在 信息 查询 与 搜索 、 使 用 与 转让 、 加 工 与 存储 、 复 制 与 修改 
等 活动 中 享有 人 身 权 与 财产 权 。 其 财产 权 属 性 主要 体现 在 以 下 两 个 方面 。 

第 一 ,信息 产权 是 信息 产权 人 或 其 他 信息 权利 人 直接 控制 .支配 其 相关 信息 并 排除 他 
人 非法 侵害 的 权利 ,是 权利 人 就 相关 信息 的 查询 存储、 处 理 ` 加 工 和 传播 等 过 程 中 合法 使 
用 、 利 用 而 获取 利益 的 权利 。 

第 二 ,在 市 场 交换 条 件 下 ,相关 信息 能 作为 信息 权利 人 与 市 场 商业 主体 交易 的 客体 ， 
其 财产 权 属 性 主要 体现 在 大 量 的 信息 再 加 工 、 深 度 开发 而 形成 的 数据 库 产业 所 具有 的 财 
产权 属性 ;权利 人 能 够 通过 对 信息 使 用 权 的 转让 直接 获取 财产 利益 。 

2) 信息 检索 与 利用 活动 的 法 律 属性 

信息 检索 是 信息 使 用 者 根据 自己 的 需要 ,利用 有 关 信 息 检索 知识 ,通过 各 种 检索 途径 
和 检索 工具 获取 相关 信息 的 过 程 。 信 息 检索 活动 具有 明显 的 目的 性 ,检索 过 程 中 可 能 侵 
害 他 人 的 利益 。 检 索 对 象 受到 著作 权 法 .专利 法 、 商 业 秘密 保护 法 、 民 法 通则 劳动 法 、 保 
守 国 家 秘密 法 .刑法 等 法 律 法 规 的 保护 。 因 此 信息 检索 与 利用 活动 在 法 律 上 表现 出 自身 
的 本 质 和 特征 ,具有 明显 的 法 律 属性 。 

目前 ,世界 上 没有 专门 的 信息 检索 与 利用 法 规 , 其 依据 依托 在 相关 知识 产权 法 领域 。 
但 是 ,无 论 在 理论 上 还 是 在 实践 中 ,其 法 律 属 性 都 是 无 法 回避 的 问题 。 由 于 信息 检索 与 利 
用 对 象 受 到 各 种 法 律 法 规 ` 行 为 准则 的 限制 ,信息 检索 与 利用 活动 在 很 大 范围 内 涉及 法 律 
规范 的 问题 。 
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2. 信息 公开 制度 

所 谓 信息 公开 ,一 是 指 政府 有 义务 公开 自己 的 活动 情况 ,包括 行使 管理 职责 过 程 中 形 
成 的 各 种 信息 ;二 是 指 公民 个 人 或 团体 有 知情 权 去 了 解 查询 、 获 取 和 应 用 行政 机 关 的 文 
件 、 档 案 资 料 和 其 他 信息 。 

建立 信息 公开 制度 对 于 信息 检索 与 利用 的 意义 。 首 先 ,每 个 合法 公民 都 有 信息 检索 
与 获取 的 自由 和 权利 ,建立 信息 公开 制度 可 以 增加 政府 活动 的 透明 度 和 公开 性 ,方便 民众 
对 信息 活动 的 查询 与 获取 。 其 次 ,建立 信息 公开 制度 ,便于 实现 政府 上 下 级 之 间 、 各 部 门 
之 间 的 信息 查询 与 利用 ,避免 信息 堆积 和 重 芭 ,构建 高 效率 的 信息 化 政务 。 最 后 ,有 利于 
社会 信息 最 大 程度 地 共享 。 在 信息 化 社会 ,信息 公开 对 于 公众 及 时 获取 所 需 信 息 , 降 低 其 
查询 与 利用 成 本 并 促进 整个 社会 经 济 的 发 展 具有 重要 意义 。 


2.2.2 知情 权 问 题 

知情 权 就 是 为 了 公民 和 企 事业 组 织 、 社 会 团体 了 解 与 自身 利益 紧密 相关 的 资料 、 信 
息 、 消 息 而 建立 的 保障 制度 。 在 我 国 ,除了 司法 与 公安 人 员 有 依据 法 律 规定 进行 调查 、 取 
证 的 权利 外 ,公民 也 有 权 通 过 正当 的 途径 查询 和 搜集 法 律 允许 获取 的 信息 ,如 《中 华人 民 
共和 国 行政 复议 法 》 当 中 规定 的 利益 相关 人 的 查询 制度 .行政 处 罚 法 规定 的 听证 制度 等 。 
随 着 社会 的 不 断 进步 ,知情 权 成 为 一 种 广泛 的 社会 权利 和 公民 权利 。 

1. 知情 权 的 含义 

“知情 权 ”, 英 文 名 为 the right to know, 又 称 为 “ 知 ” 的 权利 .知悉 权 、 咨 询 权 、 信 息 权 
或 了 解 权 ,是 4 世界 人 权 宣 言 》 确 定 的 基本 人 权 之 一 ,其 基本 含义 是 公民 有 权 知 道 他 应 该 知 
道 的 事情 ,国家 应 最 大 限度 地 确认 和 保障 这 一 权利 。 

“知情 权 ” 包 括 “ 知 悉 "“ 获 取 ” 两 个 层次 的 含义 。 其 中 “知悉 ”主要 是 指 权利 人 从 主观 
上 知晓 ,而 “获取 ” 则 指 权利 人 查询 、 索 取 、 查 阅 某 种 记录 着 信息 的 有 形 载体 (这 种 载体 可 以 
是 文字 、 图 片 ,也 可 以 是 录音 带 、 录 像 带 、 电 子 光盘 或 网 络 数据 库 等 ;。 知 情 权 表 达 了 现代 
社会 成 员 对 信息 资源 的 一 种 普遍 利益 要 求 和 权利 意识 ,是 一 个 民主 社会 和 民主 国家 中 公 
民 享 有 的 重要 权利 。 

2. 中 国 现行 法 律 中 对 “知情 权 ” 的 规定 

我 国 已 陆续 制定 了 一 些 法 律 规范 ,以 明确 和 保障 公民 知悉 、 获 取 有 关 信息 的 自由 和 权 
利 。 像 (宪法 》《 消 费 者 权益 保护 法 》《 证 券 法 》《 公 司法 》《 合 同 法 》《 保 险 法 》 都 列 出 了 
相关 条 例 保 护 公 民 的 合法 知情 权 。 此 外 ,还 有 属于 保障 公民 获知 信息 的 义务 性 规范 ,以 及 
公民 有 权 通 过 各 种 渠道 享受 国家 机 关 和 其 他 公共 团体 依法 提供 的 信息 服务 。 
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2.2.3 国家 秘密 问题 

1. 国家 秘密 的 概念 及 其 构成 要 素 

《中 华人 民 共 和 国保 守 国 家 秘密 法 》 规 定 ,国家 秘密 是 指 “ 关 系 国 家 的 安全 和 利益 , 依 
照 法 定 程 序 确定 ,在 一 定时 间 内 只 限 一 定 范 围 的 人 员 知 悉 的 事项 *。 这 一 概念 表明 ,一 条 
秘密 信息 必须 同时 具备 以 下 三 个 要 素 才 能 算是 国家 秘密 。 

首先 ,关乎 国家 的 安全 和 秘密 。 这 是 构成 国家 秘密 的 实质 要 素 ,是 准确 判定 某 一 信息 
是 否 属于 国家 秘密 的 关键 。 

其 次 ,必须 根据 国家 相关 法 规 、 依照 法 定 程序 加 以 确定 ,这 是 国家 秘密 的 程序 要 素 。 
强调 确定 国家 秘密 的 统一 性 与 合法 性 ,防止 主观 随意 性 。 例 如 ,高 校 少 部 分 优秀 学 生 可 能 
参与 的 保密 性 科研 项 目 ( 例 如 国防 正式 或 预 研 项 目 ) ,其 研究 成 果 是 不 允许 公开 发 表 的 ,与 
涉 密 项 目 有 一 定 关联 性 的 成 果 , 确 实 需要 公开 发 表 的 ,也 需要 依 规 合法 进行 相关 审批 后 再 
发 表 。 

最 后 ,具有 特定 的 保密 时 限 和 限定 的 知 密 范围 。 这 是 国家 机 密 的 时 空 要 素 , 是 为 保守 
某 项 国家 机 密 , 需 在 一 定 范 围 内 所 采取 的 各 种 保密 措施 。 

2. 国家 秘密 的 密级 

《中 华人 民 共 和 国保 守 国 家 秘密 法 》 第 九条 规定 了 国家 秘密 的 基本 范围 ,主要 内 容 有 
国家 事务 重大 决策 中 ,国防 建设 和 武装 力量 活动 中 ,外交 与 外 事 活动 中 的 秘密 事项 ,以 及 
对 外 承担 的 保密 义务 、 国 民 经 济 和 社会 发 展 中 、 科 学 技术 研究 中 维护 国家 安全 活动 和 追 
查 刑事 犯罪 中 的 保密 事项 及 经 国家 保密 行政 管理 部 门 确定 的 保密 事项 。 

根据 秘密 等 级 ,国家 秘密 可 分 为 绝密 、 机 密 和 秘密 三 种 。 识 别 国家 机 密 , 主 要 通过 信 
息 载 体 上 的 国家 秘密 标志 , 即 印记 在 国家 秘密 载体 上 ,表明 其 内 容 属 于 国家 秘密 事项 的 记 
号 。 一 个 完整 的 国家 秘密 标识 应 为 国家 秘密 的 密级 ,五角 星 符号 .保密 期 限 。 

3. 有 关 法 律 对 国家 秘密 的 保护 

国家 秘密 ,其 法 律 保护 是 以 刑法 和 行政 法 为 主 的 多 种 法 律 保护 体系 ,主要 包括 《中 华 
人 民 共 和 国 宪法 》《 中 华人 民 共 和 国 刑法 》《 中 华人 民 共 和 国 国 家 安全 法 》 和 《中 华人 民 共 
和 国保 守 国 家 秘密 法 》。 

在 信息 检索 .收集 .获取 与 应 用 活动 中 ,任何 人 均 不 得 非法 查阅 与 使 用 国家 秘密 。 一 
且 在 工作 中 发 现 有 国家 秘密 材料 ,应 立即 联系 政府 保密 部 门 ,并 妥善 保管 这 些 材料 ,移交 
政府 保密 部 门 。 最 后 ,还 应 尽 最 大 努力 协助 调查 这 些 资 料 是 如 何 泄露 出 来 的 ,同时 也 需要 
受 善 保管 自己 信息 检索 与 获取 过 程 中 的 相关 资料 ,以 备 政府 保密 部 门 调查 。 
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2.2.4 商业 秘密 问题 

1. 商业 秘密 的 含义 

商业 秘密 ,是 指 不 为 公众 所 知悉 ,能 为 权利 人 带 来 经 济 利益 .具有 实用 性 并 经 权利 人 
采取 保密 措施 的 设计 资料 .开发 程序 .产品 配方 ,制作 工艺 .制作 方法 、 管 理 诀 窃 . 客 户 名 
单 .货源 情 报 、 产 销 策略 等 技术 信息 和 经 营 信息 。 

2. 有 关 法 律 对 商业 秘密 的 保护 

目前 ,很 多 国家 和 地 区 采取 不 同 的 方法 和 手段 保护 商业 秘密 。 除 少数 国家 和 地 区 通 
过 专项 立法 ,对 商业 秘密 加 以 保护 外 ,世界 上 大 多 数 国家 和 地 区 都 有 通过 《中 华人 民 共 和 
国民 法 》《 中 华人 民 共 和 国 反 不 正当 竞争 法 ) 以 及 (中 华人 民 共 和 国 刑法 ) 等 有 关 条 款 予以 
保护 。 我 国 现在 还 没有 针对 商业 秘密 的 保护 问题 专门 立法 ,对 商业 秘密 的 保护 主要 是 通 
过 《中 华人 民 共 和 国 反 不 正当 竞争 法 》《 中 华人 民 共 和 国 劳动 合同 法 》《 中 华人 民 共 和 国 
民法 通则 》 和 《中 华人 民 共 和 国 刑法 》 的 有 关 规定 来 实施 保护 的 。 

3. 信息 检索 与 利用 过 程 中 的 商业 秘密 的 合法 获取 与 应 用 

在 信息 检索 与 利用 过 程 中 ,不 能 侵犯 他 人 的 商业 秘密 ,但 是 不 等 于 不 能 利用 一 定 的 途 
径 合 法 获取 商业 秘密 ,或 与 商业 秘密 价值 相对 应 的 信息 , 依 规 合 法 获取 商业 秘密 在 一 定 范 
围 内 是 允许 的 。 


2.2.5 隐私 权 保 护 问 题 

原则 上 属于 个 人 的 信息 ,都 是 个 人 秘密 或 隐私 ,都 应 得 到 保护 。 个 人 信息 的 隐私 敏感 
度 在 不 同 的 地 域 是 不 同 的 ,由 于 社会 习俗 的 不 同 ,同一 项 信息 的 隐私 敏感 度 在 不 同 国家 、 
不 同 地 区 ,不 同 民族 之 间 是 有 较 大 差异 的 。 

1. 信息 检索 与 利用 过 程 中 需 避 免 的 侵犯 隐私 权 行 为 

信息 检索 与 利用 过 程 中 ,需要 避免 的 具体 侵害 行为 有 : 侵入 侵扰 监听、 监视 .窥视 、 
窃取 、 刺 探 与 收买 .搜查 .干扰 披露 .公开 或 宣扬 。 

2. 网 络 信息 时 代 信 息 检索 与 利用 过 程 中 存在 的 侵犯 隐私 权 问题 

所 谓 网 络 隐私 权 , 是 指 在 网 络 环境 下 借助 互联 网 而 享有 的 个 人 生活 安宁 和 私人 信息 
不 受 他 人 信息 侵害 的 权利 。 因 此 ,通过 网 络 环境 进行 信息 检索 与 利用 过 程 中 ,注意 以 下 行 
为 构成 侵权 : @ 在 用 户 不 知情 的 情况 下 的 信息 搜索 .获取 与 应 用 ; @ 电 子 邮件 .通信 软件 
和 社交 媒体 的 监视 , 算 改 与 冒名 ; @ 被 采集 信息 或 残留 信息 保护 不 当 ; 四 隐私 权 客 体 范围 
被 恶意 分 享 与 传播 扩大 化 。 
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2.2.6 信息 复制 权 保护 问题 

1. 复制 权 的 法 律 保护 

复制 是 信息 检索 .评估 后 进行 利用 的 一 种 重要 方式 ,而 复制 权 也 是 信息 权 人 最 重要 的 
权利 ,通过 对 作品 复制 权 的 控制 ,信息 权利 人 能 充分 行使 自己 的 使 用 权 。 

我 国 的 (中华 人民 共和 国 著作 权 法 ) 第 十 条 《最 高 人 民法 院 关 于 审理 关于 计算 机 网 络 
著作 权 纠 纷 权 案 件 适用 法 律 若干 问题 的 解释 ) 第 三 条 《互联 网 出 版 管理 暂行 规定 ) 第 五 条 
都 做 出 了 复制 权 保护 的 相关 规定 。 

2. 信息 检索 与 利用 过 程 中 存在 的 复制 权 问题 

在 英 、 美 等 国家 的 法 律 中 ,对 版 权 的 限制 有 一 个 原则 : 信息 的 合理 使 用 ,就 是 对 发 表 
的 信息 作品 ,可 以 不 经 著作 权 人 的 许可 ,不 向 其 支付 报酬 就 可 以 使 用 。 通 常情 况 下 ， 0 
评论 .教学 .个 人 学 习 、 学 术 或 研究 一 般 都 包括 在 合理 使 用 的 范围 内 。 因 此 ,要 对 信息 
地 采集 、 检 索 与 应 用 ,应 考虑 的 因素 包括 信息 查询 的 目的 与 特征 , 即 该 ovine 
否 具 有 商业 性 质 , 或 者 是 否 是 为 了 非 营利 的 教学 与 学 习 等 目的 。 要 对 信息 检索 对 象 的 性 
质 . 所 获取 与 利用 信息 的 质 与 量 以 及 采集 对 象 作为 一 个 整体 的 关系 来 考虑 ,甚至 要 考虑 信 
息 检索 与 利用 对 象 的 潜在 市 场 应 用 或 学 术 价 值 所 产生 的 影响 。 

在 网 络 化 社会 的 今天 ,作为 大 学 生 在 学 习 和 研究 活动 中 ,切忌 不 尊重 他 人 的 原创 性 信 
息 或 原创 性 知识 成 果 , 在 实验 报告 .课程 设计 、 社 会 实践 、 学 术 论文 发 表 或 毕业 论文 撰写 等 
过 程 中 坚决 抵制 唱 窃 .抄袭 (有 意图 地 复制 与 粘贴 ). 盗 取 、 拼 次、 伪造 、 算 改 . 买 卖 等 各 种 学 
术 造 假 与 学 术 腐败 的 违法 行为 。 


2.3 信息 检索 与 利用 过 程 中 的 道德 自律 


法 律 与 道德 之 间 的 区 别 并 非 总 是 一 清二 楚 的 ,存在 模糊 的 灰色 区 域 , 在 这 些 区 域 ,有 
合法 与 不 合法 .道德 与 不 道德 。 eee ete rg 
有 不 同 的 定义 与 诠释 。 为 便于 理解 ,可 以 将 其 简化 如 下 : 法 律 是 他 律 性 约束 ,非法 行为 将 
承担 民事 或 刑事 后 果 ; 遵 守信 息 道德 是 为 履行 所 在 专业 、 职 业 、 行 业 及 其 他 行业 标准 的 行 
为 。 信 息 检索 与 利用 行为 不 道德 也 同样 损害 自身 的 利益 。 因 此 ,除了 行业 自律 、 乡 规 民 约 
和 与 论 监督 外 ,人 们 更 多 应 靠 建立 自我 约束 的 机 制 , 即 通过 学 习 和 教育 提高 信息 道德 意识 
和 自觉 性 ,达到 自我 管制 .自我 约束 的 目的 。 在 信息 化 社会 中 ,大 学 生 的 信息 道德 意识 与 
信息 道德 自律 的 培养 与 形成 ,也 是 信息 检索 素养 教育 的 一 项 主要 内 容 。 
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2.3.1 法 律 约束 的 局 限 性 

信息 社会 中 ,信息 的 海量 增长 .网 络 化 关联 、 易 检索 性 、 易 复制 性 、 易 扩散 性 等 特点 , 决 
定 了 完全 依靠 刚性 约束 为 主 的 法 律 手段 来 规范 信息 检索 、 获 取 与 利用 者 的 行为 是 不 现实 
的 ,也 是 比较 困难 的 。 

以 保护 企业 的 自主 知识 产权 、 防 止 侵犯 商业 秘密 的 行为 为 例 , 法 律 约束 的 有 限 性 体现 
在 以 下 几 个 方面 。 

(1)《 中 华人 民 共 和 国 著作 权 法 》 对 未 公开 的 自然 科学 .工程 技术 作品 给 予 保护 ,但 只 
保护 其 表现 形式 ,不 保护 其 内 容 。 如 果 按 内 容 去 实施 其 中 的 技术 秘密 、 经 营 秘密 , 则 不 构 
成 侵权 。 

(2)《 中 华人 民 共 和 国 专利 法 》 的 最 大 缺陷 是 取得 专利 必须 将 自己 的 技术 做 彻底 公 
开 , 以 换取 此 项 发 明 在 一 段 时 间 内 的 垄断 权 ,这 就 为 竞争 者 从 公开 的 专利 文献 中 分 析 有 用 
信息 开启 了 方便 之 门 。 

(3) 从 法 理 上 讲 , 商 业 秘密 权 不 具有 绝对 的 独占 性 和 排他 性 ,行使 的 仅仅 是 相对 权 
利 。 其 禁止 效力 仅 涉及 违法 侵占 ,但 不 及 于 合法 取得 。 

(4) 使 用 (中 华人 民 共 和 国 侵权 行为 法 ) 保 护 商业 秘密 ,有 两 个 潜在 的 困难 : 一 是 受害 
人 必须 证 明 自 己 是 某 一 个 合法 权利 (或 利益 ) 的 享有 者 ,而 信息 所 有 权 的 认定 在 某 些 情况 
下 是 极为 复杂 的 ;二 是 受害 人 必须 证 明 侵 权 人 的 主观 过 错 。 实 际 上 ,商业 秘密 是 一 种 脆弱 
的 权利 ,在 许多 情况 下 ,雇主 还 来 不 及 获取 实际 的 侵权 证 据 , 其 商业 秘密 就 已 经 丧失 了 。 

(5) 通过 合同 保护 商业 秘密 的 严重 缺陷 就 是 : 合同 的 效力 在 通常 情况 下 并 不 涉及 合 
同 当事人 之 外 的 第 三 者 。 

(6)《 中 华人 民 共 和 国 反 不 正当 竞争 法 ) 所 反映 的 行为 只 是 不 正当 竞争 行为 ,而 不 是 
所 有 的 竞争 行为 。 

(7) 在 现实 的 诉讼 与 纠纷 中 ,商业 秘密 侵权 的 事实 认定 往往 需要 物质 证 据 , 如 记录 有 
秘密 的 文件 或 操 盘 等 。 

(8) 商业 秘密 禁止 在 实际 操作 中 的 合理 尺度 仍然 难以 把 握 。 如 果 雇 员 和 雇主 事先 并 
没有 签订 商业 秘密 禁止 协议 ,或 者 协议 无 效 及 不 完善 , 则 仍 无 法 阻止 对 雇主 的 潜在 损害 。 

所 以 在 信息 社会 中 ,信息 道德 的 培养 与 形成 是 十 分 必要 的 。 


2.3.2 信息 道德 自律 问题 的 提出 
遵守 信息 道德 ,是 信息 化 时 代 和 网 络 化 环境 下 全 部 个 体 与 组 织 的 共同 利益 需求 ,信息 
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道德 失范 行为 不 符合 他 人 的 利益 和 公共 利益 ,归根 到 底 也 有 损 于 自身 利益 。 

参与 竞争 的 从 业 人 员 常 见 的 观点 是 : 对 抗 性 的 竞争 不 需要 也 不 能 讲 伦理 道德 。 所 谓 
“法 无 禁 则 自由 ”, 信 息 检索 与 利用 活动 只 要 不 违法 就 可 以 ,由 此 造成 主观 刻意 所 为 的 “外 
空子 ”“ 打 法 律 擦边球 ”的 行为 比比 皆 是 。 

法 律 对 社会 的 控制 与 调节 是 通过 国家 机 器 的 强制 手段 实施 的 ,属于 他 律 范围 。 无 论 
从 时 间 还 是 空间 方面 ,法 律 应 用 于 复杂 的 社会 关系 时 总 有 一 定 的 局 限 性 ,更 多 的 规范 应 依 
靠 道德 自律 。 道 德 作 为 一 种 行为 规范 ,与 强制 性 的 法 律 规范 不 一 样 , 它 主要 是 通过 两 个 方 
面 的 相互 作用 来 实现 规范 和 约束 人 的 行为 : 一 是 社会 与 论 的 评价 与 监督 ;二 是 行为 主体 
的 内 心 体验 。 对 于 某 一 种 行为 或 者 某 单一 行为 的 道德 价值 判断 标准 ,是 一 个 民族 、 一 个 国 
家 长 期 政治 ,经 济 、 文 化 .宗教 等 因素 相互 作用 而 形成 的 ,具有 一 定 的 稳定 性 。 


2.3.3 信息 道德 的 培养 和 内 省 原则 

(1) 信息 道德 的 习 得 与 实践 相 结合 。 大 学 生 的 信息 道德 可 以 在 教育 过 程 中 通过 习 得 
的 方式 逐步 形成 ,同时 在 各 种 信息 检索 与 利用 的 实践 过 程 中 逐步 提高 信息 道德 品质 。“ 知 
识 即 美德 ”, 把 知识 本 身 当 做 美德 ,在 学 习 中 成 长 信息 道德 品质 ;“ 省 察 克己 ”, 在 信息 检索 
与 利用 过 程 中 内 省 自身 的 信息 资源 利用 目的 与 主观 意图 ,是 否 侵权 、 是 否 涉 密 、 是 否 侵 害 
他 人 隐私 等 不 道德 或 违法 行为 。 

(2) 信息 道德 的 自律 和 他 律 相 结合 。 不 管 是 什么 样 的 信息 检索 与 利用 活动 首先 需要 
自律 ,但 自律 不 意味 着 不 要 规则 、 不 要 法 纪 , 需 要 自律 与 他 律 相 结合 ,从 而 保证 开放 、 共 享 、 
和 谐 与 繁荣 的 信息 资源 生态 。 

随 着 人 们 法 制 观念 的 逐步 增强 ,“ 遵 纪 守 法 是 合格 公民 的 内 在 要 求 ”已 成 为 普遍 共识 。 
信息 检索 .获取 与 利用 的 道德 操守 ,归根 到 底 是 人 文 精神 体现 , 它 关 乎 信息 化 社会 的 健康 
发 展 与 繁荣 。 

总 之 ,知识 产权 法 律 为 信息 检索 、 获 取 与 利用 画 出 了 一 道 红 线 ,也 保证 了 信息 检索 与 
利用 活动 的 效率 与 质量 ,但 是 为 了 避免 进入 误区 ,引起 不 必要 的 信息 与 知识 产权 纠纷 ,其 
至 侵害 个 人 隐私 或 危害 组 织 机 密 等 不 当 行 为 ,信息 的 检索 、 获 取 与 利用 还 需要 道德 自律 。 


2.4 信息 检索 与 利用 同 知识 产权 保护 的 相互 影响 


2.4.1 信息 检索 与 利用 对 知识 产权 保护 既 制 约 又 促进 
在 信息 检索 与 信息 资源 共享 过 程 中 ,知识 产权 保护 的 客体 一 一 信息 和 知识 产品 ,始终 
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处 于 非 物质 状态 ,具有 作为 生产 要 素 的 需求 性 、 共 享 性 、 易 复制 性 和 扩散 性 等 特点 。 正 是 
这 些 特性 的 存在 ,再 加 上 信息 技术 及 网 络 通信 技术 的 日 益 发 达 , 使 得 它们 可 以 轻而易举 地 
被 利用 者 检索 .获取 、 复 制 、. 传 播 和 使 用 ,而 需要 付出 的 成 本 很 低 或 者 几乎 没有 。 因 此 ,这 
种 主要 基于 信息 资源 共享 为 目的 的 检索 与 利用 活动 就 会 容易 产生 侵权 和 违法 行为 ,而 且 
信息 侵权 与 违法 行为 在 网 络 技术 逐步 发 达 与 不 断 渗透 的 当下 ,更 容易 泛滥 成 灾 , 进 而 破坏 
信息 与 知识 产权 生态 ,使 得 信息 生产 者 不 能 回收 自己 在 信息 生产 过 程 中 所 付出 的 智力 成 
本 和 物资 成 本 ,挫伤 了 他 们 进一步 进行 信息 生产 与 知识 创造 的 积极 性 和 主动 性 。 

为 了 解决 信息 时 代 不 断 出 现 的 诸多 信息 检索 与 共享 失范 行为 和 侵权 行为 ,需要 不 断 
研究 ` 细 化 、 修 订 和 丰富 传统 知识 产权 法 的 内 容 , 进 一 步 应 用 法 律 的 手段 来 规范 人 们 检索 、 
共享 .传播 和 利用 信息 资源 的 行为 ,保护 信息 生产 者 的 利益 。 新 的 信息 时 代 呼 唤 新 的 知识 
产权 法 ,因此 ,信息 资源 的 检索 与 共享 虽然 在 一 定 程度 上 制约 了 知识 产权 保护 的 作用 , 却 
在 无 形 之 中 又 促进 了 知识 产权 制度 的 发 展 与 完善 。 


2.4.2 知识 产权 保护 对 信息 检索 与 信息 资源 共享 的 制约 和 促进 

众所周知 ,信息 和 知识 产品 ,其 本 身 就 具有 公共 物品 属性 。 从 经 济 学 角度 看 ,它们 一 
经 产生 出 来 就 应 该 进入 公共 领域 ,不 受 限制 地 为 可 能 利用 的 人 打开 方便 之 门 , 供 人 们 自由 
查询 ,获取 和 利用 。 然 而 ,知识 产权 保护 制度 使 得 这 种 现象 不 复 存 在 , 它 规定 知识 产权 具 
有 专 有 性 : 即 知识 产权 归属 权利 人 所 有 ,他 人 如 要 使 用 该 项 智力 成 果 , 必 须 得 到 权利 人 的 
许可 ,并 向 其 支付 一 定 的 报酬 。 知 识 产 权 的 这 种 专 有 性 和 智力 成 果 的 有 偿 性 决定 了 某 些 
信息 资源 被 权利 人 所 垄断 ,不 能 为 社会 公众 自由 获取 和 利用 ,这 使 得 可 供 共享 的 公开 的 信 
息 资源 数量 减少 ,影响 了 公众 对 信息 查询 与 获取 的 广度 和 深度 ,严重 时 会 导致 信息 闭塞 ， 
使 社会 公众 利益 受 损 。 由 此 可 见 , 知 识 产权 对 信息 资源 的 检索 与 共享 是 有 制约 作用 的 。 

知识 产权 法 的 本 质 是 平衡 知识 产权 人 和 社会 公众 利益 的 调节 器 ,“ 寻 求 私 人 利益 与 公 
众 利益 的 平衡 "一 直 是 知识 产权 法 追求 的 目标 。 也 就 是 说 ,知识 产权 法 在 制定 的 时 候 就 已 
经 在 尽力 协调 .平衡 和 兼顾 权利 人 与 社会 公众 的 利益 了 。 一 方面 , 它 要 保护 信息 和 知识 生 
产 者 的 利益 ,允许 他 们 向 利用 者 收取 报酬 来 补偿 自己 的 投入 ,并 为 之 带 来 一 定 的 经 济 利 
益 ， 从 而 鼓励 他 们 继续 创造 更 多 的 信息 和 知识 ,也 就 是 保护 了 信息 获取 与 共享 的 “源泉 ”; 
另 一 方面 , 它 又 要 兼顾 社会 公众 的 利益 ,防止 权利 的 滥用 和 过 度 膨胀 ,促进 信息 和 知识 的 
广泛 传播 ,共享 和 利用 ,加 快 社会 进步 。 因 此 ,知识 产权 保护 对 信息 检索 与 信息 资源 共享 
又 起 着 促进 作用 。 

由 此 可 见 ,信息 资源 检索 、 共 享 与 利用 同 知识 产权 保护 之 间 既 存在 着 相互 矛盾 的 一 
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面 ,也 存在 着 相互 统一 的 一 面 。 如 果 没 有 合法 的 信息 与 知识 保护 就 不 会 有 源源 不 断 的 信 
息 与 知识 产生 ,信息 有 了 合法 的 保护 就 会 有 日 益 丰 富 的 信息 可 供 查询 、 共 享 与 利用 。 


2.5 大 学 生 信 息 检索 素养 与 学 术 不 端 行 为 的 关联 


作为 大 学 生 , 信 息 检索 的 主要 目的 是 为 了 自主 学 习 、 发 现 与 探究 学 习 、 协 作 与 研究 性 
学 习 、 课 题 与 项 目 研究 活动 及 其 生活 与 休闲 娱乐 等 活动 服务 ,在 满足 信息 需求 的 基础 上 ， 
提高 学 习 、 研 究 、 工 作 和 生活 的 效率 与 质量 。 但 是 ,大 学 生 侵犯 他 人 知识 产权 侵害 别人 智 
力 劳 动 成 果 与 学 术 不 端 行为 却 屡屡 发 生 。 

高 校 是 人 才 培 养 和 学 术 发 展 的 主 阵地 ,是 传授 知识 ,传播 知识 、 利 用 与 生产 知识 的 圣 
洁 天 堂 。 然 而 近年 来 ,来 自 于 大 学 生 的 “科学 骗局 ”“ 困 境 中 的 科学 ”“ 伪 造 的 结果 ”等 学 
术 不 端 现象 频 发 ,严重 影响 了 大 学 生 作为 高 级 知识 分 子 和 高 层次 人 才 的 社会 声誉 ,并 且 对 
大 学 生 的 学 术 能 力 成 长 .学术 品质 的 形成 与 信息 检索 素养 的 塑造 构成 威胁 ,大 学 生 的 学 术 
不 端 行为 也 呈现 出 一 些 腐化 与 泛 化 的 不 良 状态 。 因 此 ,对 大 学 生 进 行 信息 检索 道德 教育 、 
学 术 规 范 引 导 和 学 术 道德 培养 ,过 制 其 学 术 不 端 行 为 ,优化 大 学 校园 的 良好 学 风 与 学 术 风 
气 , 已 势 在 必 行 。 


2.5.1 大 学 生 学 术 不 端 行为 的 界定 

学 术 人 研究 必定 包含 着 诚信 客观、 借鉴、 参考、 合作 与 创新 等 价值 ,现代 科学 进步 是 学 
术 进 步 取得 成 功 的 重要 体现 ,学 术 诚信 是 一 个 历久 弥 新 的 话题 。 早 在 1989 年 美国 公共 卫 
生 署 就 将 “不 端 行为 ”定义 为 : 伪造 、. 算 改 . 旨 窃 或 在 研究 的 申请 、 执 行 或 报告 过 程 中 严重 
偏离 科学 界 公认 的 科研 行为 准则 的 行为 ,但 不 包括 无 意 的 错误 和 在 数据 判断 与 解读 中 出 
现 的 正常 差异 。2002 年 ,美国 国家 科学 基金 会 又 在 此 基础 上 补充 三 个 内 容 ,确定 学 术 不 
端 行为 必须 要 有 以 下 情况 : 四 必须 明显 偏离 相关 学 术 界 公认 的 行为 准则 ; 四 学 术 与 研究 
不 端 行为 是 行为 人 鞭 意 知情 或 鲁莽 造成 的 ; 回 必须 有 充分 的 证 据 证 明 学 术 不 端 行为 。 以 
上 定义 都 明确 禁止 “ 捍 造 .、 算 改 和 到 窃 ”, 这 通常 被 称 为 FFP (fabrication falsification 
plagiarism) 核 心 因 素 , 并 已 成 为 许多 部 门 和 机 构 定 义学 术 不 端 行 为 的 共同 特点 。 此 后 ,一 
些 学 术 团 体 、 大 学 和 研究 机 构 通 过 直接 引用 美国 公共 卫生 署 和 国家 科学 基金 会 的 定义 ,或 
将 它们 作为 修改 的 蓝本 ,分 别 拟定 了 各 自 对 学 术 不 端 行 为 的 含义 。 

在 我 国 ,科技 部 2006 年 颁布 的 (国家 科技 计划 实施 中 科研 不 端 行 为 处 理 办 法 ( 试 
行 )》, 对 科研 不 端 行为 的 定义 是 “违反 科学 共同 体 公 认 的 科研 行为 准则 的 行为 ”。2007 年 
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1 月 16 日 中 国 科 协 七 届 三 次 常委 会 议 审议 通过 的 《科技 工作 者 科学 道德 规范 (试行 )》 第 
三 章 对 学 术 不 端 行为 下 了 明确 的 定义 :“ 学 术 不 端 行为 是 指 在 科学 研究 和 学 术 活 动 中 的 
各 种 造假 .抄袭 、 虽 窃 和 其 他 违背 科学 共同 体 惯 例 的 行为 "2007 年 2 月 26 日 中 国 科 学 院 
发 布 的 4 中国 科学 院 关 于 加 强 科研 行为 规范 建设 的 意见 》 将 科研 不 端 行为 概括 为 六 个 方 
面 : 在 研究 和 学 术 领 域内 有 意 做 出 虚假 的 陈述 ; @ 损 害 他 人 著作 权 ; @ 违反 职业 道德 
利用 他 人 重要 的 学 术 认识 ,假设 .学 说 或 者 研究 计划 ; @ 研 究 成 果 发 表 或 出 版 中 的 科学 不 
端 行 为 ; @ 故 意 干扰 或 妨碍 他 人 的 研究 活动 ; @ 在 科研 活动 过 程 中 违背 社会 道德 。 

2009 年 ,教育 部 又 针对 高 校 学 术 不 端 行为 频 增 的 事实 ,专门 下 发 了 《关于 严肃 处 理 高 等 学 
校 学 术 不 端 行为 的 通知 》 指 出 高 等 学 校对 七 种 学 术 不 端 行为 必须 严肃 处 理 : 四 抄袭 、 唱 
窃 .侵吞 他 人 学 术 成 果 ; @ 自 改 他 人 学 术 成 果 ; 加 伪造 或 者 自 改 数据 、 文 献 ,捏造 事实 ; 

@ 伪 造 注释 ; @ 未 参加 创作 ,在 他 人 学 术 成 果 上 署名 ; @ 未 经 他 人 许可 ,不 当 使 用 他 人 署 
名 ; 其 他 学 术 不 端 行为 。 许 多 高 校 也 以 此 为 鉴 , 分 别 制定 了 适合 本 学 校 要 求 的 治理 学 
术 不 端 行 为 的 具体 条 款 并 行 之 有 效 地 付 诸 实 践 。 可 见 我 国 对 学 术 不 端 行 为 的 治理 ,逐步 
走向 明确 化 规范化、 合理 化 。 


2.5.2 大 学 生 学 术 不 端 行为 的 表现 

目前 在 大 学 生 的 本 科 和 研究 生 学 习 过 程 中 尚 有 六 种 不 端 行为 : 抄 秦 、 简 窃 网 络 资 
源 中 的 已 发 表 论文 ,并 不 加 以 标注 ; @ 利 用 网 络 现 有 文献 资料 编造 、 自 改 数 据 资源 ,为 己 
所 用 ; 图 肆意 盗用 他 人 的 学 术 观 点 ,不 标明 出 处 ; @ 进 行 论文 买卖 交易 ; @ 利 用 中 介 机 
构 , 进 行 论文 代 写 代 发 ; @ 利 用 手机 等 其 他 电子 资源 进行 考试 作 浆 ; 课程 作业 、 实 验 报 
告 . 生 成 实习 报告 .课程 设计 、 大 学 生 创 新 项 目 申报 书 撰写 、 普 通论 文 撰写 与 发 表 、 毕 业 论 
文 撰写 与 答辩 等 活动 中 故意 抄袭 与 复制 .恶意 分 享 与 肌 窃 较 严重 。 这 七 种 学 术 不 端 现 象 
在 大 学 生 的 学 习 过 程 与 学 术 生涯 中 呈 渐 进 式 滋长 与 蔓延 。 此 外 大 学 生 对 于 他 人 的 学 术 不 
端 行为 也 表现 出 事 不 关 已 , 听 之 任 之 的 消极 态度 。 根 据 ( 当 代 大 学 生 利 用 网 络 学 术 资 源 不 
端 行为 的 调查 ) 课 题 组 调查 结果 显示 ,在 1492 份 有 效 调查 问卷 中 仅 有 22. 8% 的 学 生 对 其 
他 同学 的 学 术 不 端 行为 表现 坚决 抵制 ,有 36. 1% 的 大 学 生 表 示 可 以 容忍 和 接受 ， 
32.8% 的 大 学 生 表示 无 所 谓 ,甚至 有 8.3% 的 大 学 生 表 示 支 持 。 这 种 漠视 .纵容 的 态度 折 
射出 大 学 生 学 术 诚 信和 缺失 及 学 术 素 养 低下 的 现实 状况 。 在 对 浙江 省 内 五 所 高 校 的 在 校 大 
学 生 进 行 学 术 诚 信 问 题 的 调查 中 ,有 62% 的 大 学 生 认 为 考试 作 疾 是 非常 普遍 的 ,有 
83.9% 的 大 学 生 认 为 作业 抄 秦 是 普遍 存在 的 现象 ,70% 的 大 学 生 对 其 他 同学 考试 作 浆 行 
为 视而不见 ,更 有 甚 者 表示 有 需要 时 自己 也 会 作 整 ,这 一 比例 高 达 60. 4%。 这 些 调查 结 
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果 充 分 说 明 急功近利 , 心 浮 气 躁 ,缺乏 诚信 是 现时 期 大 学 生 学 术 行 为 的 主要 特征 。 

当前 大 学 生存 在 的 不 端 行为 有 三 个 方面 的 影响 因素 。 第 一 ,个 人 利益 的 驱使 是 引起 
大 学 生 学 术 不 端 行为 泛 起 的 内 在 诱因 。 伴 随 市 场 经 济 的 发 展 ,一 种 片面 追求 物质 财富 的 
社会 氛围 日 益 形 成 ,一 染 着 大 学 生 的 社会 价值 观 向 多 元 化 .世俗 化 、 功 利 化 转变 ,在 物欲 横 
流 的 现实 生活 中 , 权 钱 交易 、 权 权 交 易 、 权 色 交 易 在 国家 各 个 层面 反腐 倡 廉 与 惩戒 腐败 的 
高 压 态 势 下 仍然 屡禁不止 ,并 逐步 涉足 校园 净土 , 权 学 交易 随 之 而 来 ,这 种 乍 风 邪气 的 蕊 
延 , 使 部 分 大 学 生 放 弃 了 对 "发愤 图 强 " ”为 中 华 崛 起 而 读书 ”的 崇高 梦想 与 学 术 精 神 的 追 
求 , 忽 视 了 学 习 知 识 与 创新 创业 的 社会 责任 ,过 分 注重 结果 而 轻视 学 业 ,为 获取 学 位 不 择 
手段 ,把 学 术 当 成 获取 个 人 私利 的 工具 。 第 二 ,缺乏 应 有 的 信息 检索 素养 教育 .诚信 教育 
与 学 术 素 质 塑 造 。 在 浙江 省 内 五 所 高 校 大 学 生 学 术 诚 信 问 题 的 调查 问卷 结果 中 ,有 
66.9% 的 学 生 认 为 诚信 缺失 的 原因 是 学 术 道德 教育 薄弱 ,有 39% 的 大 学 生 认为 学 校 没有 
开设 过 学 术 规 范 课 程 ,34.2% 的 学 生 不 清楚 学 校 是 否 开设 过 学 术 规 范 课程 。 类 似 这 五 所 
高 校 的 调查 结果 在 全 国 各 高 校内 普遍 存在 ,甚至 有 过 之 而 无 不 及 。 可 见 高 校对 大 学 生 学 
术 道 德 教育 的 重视 程度 不 够 ,大 学 生 对 学 术 规 范 缺乏 了 解 和 认 知 ,以 至 于 不 端 行为 愈 演 愈 
烈 。 第 三 ,大 学 生 学 术 能 力 水 平 低 。 许 多 大 学 生 都 知道 抄袭 、 旨 窃 . 作 弊 等 行为 是 学 术 道 
德 失范 的 典型 表现 ,但 仍 侥幸 尝试 ,这 种 明知 故 犯 的 背后 ,是 由 于 学 术 水 平 低下 ,学 术 知 识 
匮乏 ,学 术 创新 能 力 薄 弱 , 但 又 想得到 良好 的 学 术 成 果 和 考试 成 绩 , 只 好 不 择 手 段 去 复 
制 ? 或 “窃取 ?他 人 成 果 。 现 在 大 学 生 的 普遍 整 病 是 注重 吃喝 享乐 ,缺乏 刻苦 钻研 与 独立 思 
考 的 精神 ,在 “ 填 鸭 式 ? 教 学 模式 及 浮躁 的 社会 风气 影响 下 ,形成 了 懈怠 .懒惰 的 学 习 态 度 
和 骄 纵 奢靡 的 生活 作风 。 这 种 校园 风气 使 大 学 生 对 学 术 不 端 行为 产生 麻木 而 纵容 , 作 
弊 .抄袭 等 不 端 行为 屡禁不止。 


2.5.3 信息 检索 素养 教育 对 大 学 生 学 术 不 端 行为 的 作用 

(1) 利用 信息 检索 原理 及 其 技术 应 用 , 反 制 大 学 生 学 术 不 端 行为 。 以 往 大 学 生 主 要 
是 通过 在 图 书馆 借阅 书籍 和 查阅 文献 获取 相关 信息 和 知识 ,而 网 络 技术 及 其 信息 资源 建 
设 快速 发 展 却 改 变 了 这 一 传统 的 方式 。 虽 然 网 络 的 普及 给 人 们 带 来 了 便捷 、 快 速 获 取信 
息 的 手段 ,但 是 通过 网 络 手段 唾 手 可 得 的 丰富 信息 , 却 成 为 了 抄袭 与 莘 窃 的 主要 来 源 。 丰 
富 的 资料 以 及 简单 的 “复制 "与 “粘贴 ”就 能 使 人 们 不 费 吹 灰 之 力 “ 拼 凑 ” 成 一 篇 论文 。 特 别 
是 现今 对 外 文 资料 的 获取 较 之 从 前 更 为 容易 .这 就 为 一 些 人 在 写 论文 时 提供 了 一 种 新 的 
抄袭 手段 ,即将 外 文 资料 翻译 成 中 文 不 加 注释 地 引用 到 自己 的 论文 中 。 

高 校 需要 用 信息 检索 的 原理 ,独立 建设 或 引进 “学 术 不 端 检 测 信息 系统 ”, 利 用 信息 检 
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索 基 本 原理 构建 庞大 的 “学 术 不 端 检测 网 络 系统 ”, 对 学 生 的 课程 大 作业 、 实 验 报告 .课程 
设计 报告 .生成 实习 报告 .大 学 生 创新 创业 项 目 申报 书 、 毕 业 论 文 等 ,通过 抽查 或 全 面 复 查 
方式 在 “学 术 不 端 检 测 网 络 系统 "中 检测 。 检 测 的 基本 原理 包括 文本 字符 信息 检测 、 图 像 
图 表 信 息 检测 、 数 学 原理 与 化 学 分 子 式 检测 .音频 信息 检索 、 视 频 信 息 检测 、 跨 库 跨 平台 检 
测 等 技术 实现 学 生 学 习 过 程 档案 的 无 颖 检测 与 对 接 。 通 过 信息 检索 原理 及 其 技术 应 用 的 
力量 对 学 生 的 学 术 不 端 行为 进行 全 覆盖 .无 死角 治理 , 反 制 大 学 生 学 术 不 端 行为 。 

(2) 加 强 建设 对 大 学 生 的 学 术 不 端 行为 审查 与 惩处 力度 。 高 校 应 加 强 建 设 有 关 大 学 
生 的 学 术 不 端 行为 审查 制度 ,对 学 术 行 为 进行 严格 把 关 。 虽 然 2004 年 教育 部 社会 科学 委 
员 会 制定 的 (高 等 学 校 哲学 社会 科学 研究 学 术 规范 (试行 )》 明 确 规 定 * 不 得 以 任何 方式 抄 
袭 、 别 窃 或 侵吞 他 人 学 术 成 果 ”。 各 个 高 校 则 应 该 积极 制定 实施 “学 术 规 范 ” 的 制度 性 办 
法 ,建立 起 完善 的 审查 制度 ,一 旦 发 现存 在 抄袭 、 旨 窃 等 学 术 不 端 问题 ,应 立即 加 以 惩处 。 
首先 ,高 校 可 以 将 "学 术 规范 ?与 "学 位 证 ?挂钩 ,对 有 抄袭 旨 窃 他 人 成 果 的 学 生 予 以 惩罚 ， 
才能 实现 教育 部 制定 "学 术 规范 ?政策 的 真正 目的 ,同时 对 大 学 生 的 学 术 不 端 行为 形成 堆 
容忍 制度 ,包括 事前 发 现 , 事 中 发 现 和 毕业 后 发 现 , 均 属 惩处 的 制度 范畴 之 列 ,从 制度 上 根 
本 保障 大 学 生 的 学 术 行 为 回归 到 良性 轨道 上 来 。 

(3) 通过 信息 检索 素养 教育 ,提高 学 生 的 科研 能 力 。 信 息 检索 素养 教育 的 重要 目的 
就 是 “站 在 巨人 肩膀 上 ”, 通 过 全 面 的 信息 检索 ,把 握 研究 项 目的 立项 依据 、 研 究 可 行 性 、 研 
究 方 法 、 技 术 路 线 、 研 究 计 划 与 研究 预期 的 科学 性 , 少 走 弯路 ,达到 事半功倍 的 研究 目的 。 
通过 信息 检索 素养 教育 ,结合 学 生 的 专业 学 习 , 提 高 学 生 的 科研 能 力 , 这 是 对 大 学 生 的 学 
术 不 端 行为 进行 根本 治理 的 治本 之 策 与 必然 出 路 。 对 大 学 生 的 学 术 不 端 行为 审查 与 惩处 
规范 无 论 有 多 么 完善 ,都 需要 “通过 信息 检索 素养 教育 ,提高 学 生 的 科研 能 力 ” 作 为 坚实 基 
础 。 信 息 检索 素养 教育 能 够 逐步 建立 并 增强 大 学 生 自 主 学 习 、 发 现 与 探究 学 习 、 协 作 与 研 
究 性 学 习 的 过 程 与 能 力 , 从 根本 上 建立 学 生气 弃 各 种 学 术 不 端 行 为 的 强烈 自信 心 与 能 力 
基础 。 


本 章 小 结 


日 益 发 达 的 信息 技术 手段 和 无 处 不 在 的 网 络 化 环境 ,已 经 可 以 让 人 们 轻而易举 而 又 
不 露 痕 迹地 检索 、 获 取 、 共 享 和 利用 各 种 信息 资源 或 信息 产品 ,这 就 为 各 种 信息 化 犯罪 创 
造 了 条 件 , 人 们 的 信息 检索 与 利用 活动 迫切 需要 形成 更 加 广泛 和 深入 的 知识 产权 法 律 意 
识 , 也 是 信息 检索 道德 的 内 在 要 求 。 
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由 于 信息 是 知识 产权 活动 的 一 种 客观 反映 形式 ,而 当代 大 学 生 作 为 信息 社会 信息 检 
索 与 利用 过 程 中 最 具 活 力 的 生力军 ,需要 具备 较 高 的 知识 产权 法 律 意识 ,尊重 知识 产权 ， 
杜绝 、 避 免 知识 产权 侵害 和 各 种 网 络 化 信息 犯罪 的 发 生 , 共 建 公平 开放、 和谐 与 守法 的 信 
息 化 与 网 络 化 环境 。 这 不 仅 是 顺利 和 合法 开展 信息 检索 与 利用 活动 的 前 提 与 根本 保证 ， 
也 是 当代 大 学 生 信息 检索 素养 教育 的 内 在 要 求 。 

信息 社会 的 三 个 核心 要 素 : 信息 技术 带动 高 新 技术 发 展 ,信息 产业 促进 传统 产业 结 
构 加 速 调整 ,信息 资源 引导 经 济 集约 化 。 

信息 是 事物 运动 的 一 种 状态 与 方式 ,是 物质 的 一 种 属性 。 信 息 有 无 穷 性 、 可 辨识 性 、 
可 转换 性 、 可 存储 性 、 可 传递 性 、 可 分 享 性 等 重要 特征 。 

知识 产权 主要 是 指 人 们 对 其 从 事 智力 活动 而 产生 的 成 果 所 依法 享有 的 专 有 权利 ,是 
一 种 无 形 财产 权 。 知 识 产 权 是 人 类 的 发 明 创造 智力 活动 成 果 和 法 律 活动 的 结合 与 交叉 ， 
是 人 们 依据 国家 法 律 对 自己 的 智力 活动 而 获得 的 成 果 所 享有 的 权利 。 对 于 大 学 生 常 常 检 
索 与 利用 的 专著 ,学 位 论文 ,专利 .标准 ` 学 术 研 究 论文 等 信息 作品 以 及 网 络 原 创 性 信息 都 
属于 知识 产权 范畴 ,因为 信息 是 知识 产权 活动 的 一 种 反映 ,也 是 知识 产权 现象 的 表述 , 体 
现 了 知识 产权 的 主体 内 容 。 

作为 当代 大 学 生 ,通过 各 种 信息 检索 技术 手段 以 满足 自身 不 断 增长 的 信息 需求 ,是 时 
代 的 要 求 与 必然 趋势 ,但 前 提 是 不 能 侵害 他 人 或 组 织 的 正当 知识 产权 利益 ,不 得 干扰 或 危 
害 和 谐 的 信息 资源 利用 环境 和 信息 共享 秩序 ,不 得 侵害 个 人 隐私 信息 。 在 获取 与 利用 信 
息 的 同时 ,信息 检索 与 利用 者 的 检索 手段 和 利用 方法 也 必须 置 于 法 律 和 道德 允许 的 范 
围 内 。 

信息 社会 中 ,信息 的 海量 增长 、 网 络 化 关联 、 易 检索 性 、 易 复制 性 、. 易 扩散 性 等 特点 , 决 
定 了 完全 依靠 刚性 约束 为 主 的 法 律 手段 来 规范 信息 检索 、 获 取 与 利用 者 的 行为 是 不 现实 
的 ,也 是 比较 困难 的 。 遵 守信 息 道德 ,是 信息 化 时 代 和 网 络 化 环境 下 全 部 个 体 与 组 织 的 共 
同 利益 需求 ,信息 道德 失范 行为 不 符合 他 人 的 利益 和 公共 利益 ,归根 到 底 也 有 损 于 自身 利 
益 , 所 以 需要 信息 检索 道德 的 培养 和 自律 的 逐渐 形成 。 

知识 产权 对 信息 资源 的 检索 与 共享 是 有 制约 作用 的 ,同时 又 起 着 促进 作用 。 作 为 大 
学 生 , 信 息 检索 的 主要 目的 是 为 了 自主 学 习 , 发 现 与 探究 学 习 、 协 作 与 研究 性 学 习 、 课 题 与 
项 目 研究 活动 及 其 生活 与 休闲 娱乐 等 活动 服务 ,在 满足 信息 需求 的 基础 上 ,提高 学 习 、 研 
究 . 工 作 和 生活 的 效率 与 质量 。 但 是 ,大 学 生 侵犯 他 人 知识 产权 、 侵 害 别 人 智力 劳动 成 果 
与 学 术 不 端 行为 却 屡屡 发 生 , 有 着 很 多 形成 的 环境 因素 。 

信息 检索 素养 教育 对 大 学 生 学 术 不 端 行为 起 着 主要 作用 。 通 过 利用 信息 检索 原理 及 


其 技术 应 用 , 反 制 大 学 生 学 术 不 端 行为 。 通 过 加 强 对 大 学 生 的 学 术 不 端 行为 的 审查 与 惩 
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处 力度 ,从 制度 上 根本 保障 大 学 生 的 学 术 行为 回归 到 良性 轨道 上 来 。 通 过 信息 检索 素养 
教育 ,逐步 建立 并 增强 大 学 生 自主 学 习 、 发 现 与 探究 学 习 、 协 作 与 研究 性 学 习 的 过 程 与 能 
力 , 从 根本 上 建立 学 生 据 弃 各 种 学 术 不 端 行为 的 自信 心 与 能 力 基 础 。 


> 


本 章 思考 与 练习 题 


. 什么 是 信息 社会 ? 它 的 主要 特点 是 什么 ? 

. 信息 社会 的 三 个 核心 要 素 是 什么 ? 

. 信息 的 含义 与 基本 类 型 有 哪些 ? 

. 信息 有 哪些 主要 特征 ?分 别 举例 说 明 。 

.知识 产权 的 内 涵 ?” 其 主要 特点 包括 哪些 方面 ? 

. 知识 产权 的 性 质 或 本 质 是 什么 ?请 举例 说 明 。 
.知识 产权 有 哪些 主要 内 容 ? 

. 信息 的 财产 权 属性 如 何 体现 ? 

. 什么 是 信息 公开 ? 知情 权 含义 是 什么 ? 

. 信息 检索 与 利用 过 程 中 ,如 何 识别 国家 秘密 、 商 业 秘密 和 个 人 隐私 等 信息 ? 
.当代 大 学 生 如 何在 信息 检索 与 利用 过 程 中 逐渐 培养 道德 自律 ? 

. 举例 说 明 信 息 检索 与 利用 同 知识 产权 保护 的 相互 影响 作用 。 

. 哪些 行为 属于 大 学 生 学 术 不 端 行为 ? 在 信息 检索 与 利用 过 程 中 你 认为 该 如 何 


. 大 学 生 学 术 不 端 行为 的 概念 如 何 界定 ? 有 哪些 表现 与 成 因 ? 
. 信息 检索 素养 教育 对 大 学 生 学 术 不 端 行为 有 何 作用 ? 
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3.1 信息 检索 的 含义 


3.1.1 检索 的 概念 

信息 检索 起 源 于 对 文本 信息 和 印刷 资料 的 情报 检索 ,开始 于 20 世纪 50 年 代 初 期 。 
1954 年 ,美国 海军 军械 试验 站 图 书馆 利用 IBM-701 电子 计算 机 建立 了 世界 上 第 一 个 信息 
检索 系统 ,用 于 情报 服务 。1959 年 ,H. P. 卢 恩 (Luhn) 利 用 IBM-650 计算 机 对 文献 信息 
进行 统计 分 析 , 实 现 定 题 情报 检索 服务 。20 世纪 60 年 代 , 在 图 书 情报 工作 中 广泛 利用 计 
算 机 脱 机 批 处 理 系统 进行 情报 检索 。1962 年 ,美国 M. M. 凯 瑟 尔 进行 了 世界 上 最 早 的 联 
机 信息 检索 试验 。1964 年 ,美国 系统 发 展 公司 (SDC) 成 功 研制 “书目 信息 实时 共享 在 线 
检索 ”(on-line retrieval of biographic information-time shared,ORBIT) 软 件 。20 世纪 70 
年 代 以 来 ,人 们 对 信息 检索 进行 了 大 量 的 理论 和 应 用 研究 。 联 机 信息 检索 系统 除了 上 述 
的 Orbit 之 外 ,还 有 美国 国家 医学 图 书馆 的 Medline 系统 美国 洛 克 希 德 公司 的 Dialog 系 
统 。 与 此 同时 ,法 国 、 英 国 、 日 本 、 加 拿 大 也 先后 建立 了 联机 信息 检索 系统 ,如 欧洲 空间 组 
织 情 报 检索 中 心 的 ESA-IRS 系统 。 

20 世纪 90 年 代 以 来 ,以 互联 网 技术 发 展 为 支撑 的 网 络 信息 资源 迅猛 增长 ,人 们 将 发 
展 较 为 成 熟 的 专业 性 的 文本 信息 检索 原理 与 方法 移植 到 Internet 网 上 ,这 大 大 促进 了 信 
息 检 索 的 发 展 、 推 广 与 普及 化 ,使 得 信息 检索 从 相对 封闭 、 稳 定 一 致 \ 由 独立 数据 库 集中 管 
理 的 信息 内 容 扩展 到 开放 共享 .动态 更 新 .传播 快速 .松散 管理 的 Web 信息 世界 。 

信息 检索 是 一 个 外 来 词汇 , 源 于 英文 的 "Retrieval”, 其 英文 近义词 是 “Search” 和 
“Query”, 翻译 成 中 文 是 “查找 ”或 “查询 ”的 意思 。 检 索 是 指 从 图 书 文献 .学 术 期 刊 . 专 题 
数据 库 、 网 络 信 息 系统 、 学 科 网 站 等 各 种 信息 资源 集合 中 ,利用 一 定 的 方法 与 技术 查找 符 
合 自 己 需 要 的 信息 或 资料 ,从 而 满足 自身 信息 需求 的 过 程 。 

广义 的 检索 是 指 将 信息 按 一 定 的 方式 组 织 和 存储 起 来 ,并 根据 用 户 的 信息 需要 查询 
出 有 关 信 息 的 活动 与 过 程 ,所 以 它 的 全 称 又 叫 信息 存储 与 检索 。 检 索 概 念 的 广义 内 容 包 


第 3 章 信息 检索 的 基本 知识 / 45 


括 信息 存储 与 信息 检索 的 集成 化 过 程 。 例 如 信息 集合 中 某 一 信息 的 存储 规范 与 信息 用 户 
的 检索 规则 与 需求 表达 一 致 ,信息 集合 就 能 成 功 提取 该 信息 给 用 户 ,否则 信息 检索 与 获取 
过 程 就 会 失败 。 狭 义 的 信息 检索 仅 指 通过 该 过 程 的 后 半 部 分 , 即 从 信息 集合 中 查找 并 获 
取 所 需 信息 的 过 程 ,相当 于 人 们 所 说 的 信息 查询 过 程 或 查询 活动 。 


3.1.2 信息 检索 的 含义 

信息 检索 (information retrieval) 术 语 最 早产 生 于 美国 学 者 Calvin Mooer 在 1948 年 
的 MIT 硕士 论文 。Information Retrieval(IR): 简 单 地 说 是 从 文档 集合 中 返回 满足 用 户 
需求 的 相关 信息 的 过 程 。 作 为 一 门 学 科 领 域 , 是 研究 信息 的 获取 (acquisition)、 表 示 
(representation) ,存储 (storage) ,组 织 (organization) 和 访问 (access) 的 一 门 学 问 。 

用 户 需 求 (user need, UN): 指 的 是 用 户 需 要 获得 的 信息 。 严 格 地 说 ,UN 只 存在 于 
用 户 的 内 心 。UN 提交 给 检索 系统 时 称 为 查询 (query) ,查询 通常 用 文本 来 表示 ,对 同一 
个 UN ,不 同人 不 同时 候 可 以 构造 出 不 同 的 Query 表达 式 。 

文档 (document) :检索 的 对 象 。 可 以 是 文本 ,也 可 以 是 图 像 、 视 频 、 语 音 等 多 媒体 文 
档 。 相 应 称 为 文本 检索 (text retrieval) .图 像 检索 (image retrieval) .视频 检索 (video 
retrieval) ,语音 检索 (speech retrieval) ,多 媒体 检索 (multimedia retrieval) 。 文 档 可 以 是 
无 结构 的 、 半 结构 的 、 有 结构 的 。 

文档 集合 (collection) :所 有 待 检 索 的 文档 构成 的 集合 ,也 称 为 知识 库 (repository) 、 语 
料 库 (corpus) 或 数据 库 (database)。 

信息 相关 和 信息 相关 度 (relevant,relevance) :相关 性 概念 是 信息 检索 的 核心 。 信 息 
检索 的 主要 目标 就 是 检索 出 所 有 与 用 户 查 询 相关 的 文档 。 相 关 取 决 于 用 户 的 知识 积累 与 
信息 需求 判断 ,是 一 个 主观 的 概念 。 不 同 用 户 做 出 的 判断 很 难保 证 一 致 ;即使 是 同一 用 户 
在 不 同时 期 .不 同 环境 下 做 出 的 判断 也 不 尽 相同 。“ 相 关 性 ”的 研究 ,从 20 世纪 30 年 代 至 
今 已 经 有 80 多 年 的 历史 ,期 间 两 个 主要 的 流派 分 别 是 面向 信息 系统 的 相关 性 研究 以 及 面 
向 信息 用 户 的 相关 性 研究 。 研 究 的 高 峰 分 别 集中 于 20 世纪 60 年 代 至 70 年 代 前 期 ,以 及 
80 年 代 中 后 期 至 今 的 两 个 阶段 。 相 关 性 是 动态 的 、 多 维 的 、 认 知 的 以 及 可 测度 的 等 观点 
已 经 成 为 学 术 界 的 共识 。 

概括 地 说 ,信息 检索 就 是 从 非 结 构 化 的 信息 集合 中 发 现 、 查 询 并 评价 与 用 户 需 求 相关 
的 信息 。 相 应 地 ,信息 检索 系统 就 是 用 来 实现 信息 检索 功能 的 计算 机 软件 系统 或 网 络 信 
息 系 统 。 

这 里 要 强调 的 是 ,与 数据 库 系统 处 理 的 结构 化 信息 不 同 , 信 息 检 索 处 理 的 是 “ 非 结 构 
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化 信息 ”。 

什么 是 “ 非 结 构 化 信息 ? 呢 ? 一 篇 新 闻 就 是 一 条 非 结构 化 信息 ,新 闻 中 会 出 现 一 些 人 
名 、 地 名 、 机 构 名 等 实体 ,以 及 这 些 实体 之 间 的 关系 (比如 某 人 是 某 地 某 机 关 的 负责 人 ) ,还 
有 与 这 些 实体 相关 的 事件 (比如 某 人 访问 了 某 地 )。 但 这 些 人 、 事 、 物 .关系 和 时 间 并 不 像 
关系 数据 库 的 二 维 表 中 存放 的 信息 那样 ,被 精确 地 分 割 并 严格 地 存放 在 合适 的 字段 或 记 
录 中 。 这 种 在 现实 世界 中 自然 存在 的 模糊 而 带 有 歧义 且 没 经 过 规格 化 的 信息 被 称 为 “ 非 
结构 化 的 "信息 。 

现实 世界 中 存在 着 大 量 的 非 结构 化 信息 , 除 文 本 外 ,还 有 图 像 .图 形 、 语 音 、 视 频 等 多 
媒体 信息 。 文 本 中 又 有 各 种 各 样 的 类 型 ,如 网 页 .邮件 、 博 客 . 论 坛 上 的 帖子 .聊天 记录 、 短 
信 、 论 文 ,报告 .技术 标准 ,法 律 文档 ` 统 计 报表 等 ,不 同类 型 的 文本 各 有 不 同 的 特点 ,比如 
论坛 上 的 帖子 往往 非常 口语 化 ,存在 大 量 的 别称 ` 省 略语 等 现象 ,给 信息 检索 带 来 很 大 的 
挑战 。 

要 处 理 好 非 结构 化 文本 ,就 要 尽 可 能 地 从 非 结构 化 信息 中 找 出 一 些 结构 来 。 所 谓 的 
“ 非 结构 化 信息 ?并 不 是 真 的 没有 结构 ,只 是 其 结构 不 是 显 性 存在 的 ,而 是 隐 含 的 ,要 找 出 
其 中 的 结构 需要 运用 由 浅 到 深 的 各 类 文本 检索 处 理 技 术 。 比 如 ,中 文 分 词 技术 就 可 以 把 
词语 从 句子 中 分 割 出 来 ,而 隐 性 语义 分 析 技 术 则 可 以 从 词汇 与 文档 关系 的 信息 挖掘 中 发 
现 文本 的 深层 结构 。 

用 户 的 信息 检索 过 程 可 以 描述 为 : 用 户 提交 信息 需求 的 查询 条 件 , 信 息 检索 系统 根 
据 该 查询 条 件 在 文档 集中 检索 出 与 其 相关 的 文档 子 集 , 对 这 些 相关 文档 子 集中 的 文档 按 
照 与 查询 条 件 的 相关 性 度 进行 排序 ,最 后 返回 给 用 户 有 序 的 文档 子 集 。 信 息 检 索 的 形式 
化 描述 如 下 。 

定义 :假设 信息 检索 模型 是 一 个 四 元 组 {D,Q,F,R(d;,g)}。 其 中 D 是 文献 集中 的 一 
组 文献 逻辑 表示 , 称 为 文献 表示 ;Q 是 一 组 用 户 信 息 需 求 的 逻辑 视图 (表示 ), 这 种 视图 ( 表 
示 ) 称 之 为 查询 ;F 是 一 种 机 制 ,用 于 构建 信息 表示 、 查 询 及 它们 之 间 关 系 的 模型 ;R(dj ,9) 
是 排序 函数 ,该 函数 输出 一 个 与 查询 Q 和 信息 表示 D 有 关 的 实数 ,这 样 就 在 信息 文档 之 
间 根 据 查询 RR, 定 义 了 一 个 顺序 。 


3.1.3 信息 检索 用 户 的 基础 素养 

对 于 信息 检索 的 用 户 而 言 ,信息 检索 通常 要 具备 四 个 基础 素养 。 

(1) 用 户 信息 意识 。 用 户 信息 意识 是 信息 检索 的 前 提 。 所 谓 信息 意识 ,简单 地 说 ,是 
人 们 利用 信息 系统 获取 所 需 信息 的 内 在 动因 ,具体 表现 为 对 信息 的 敏感 性 、 选 择 能 力 和 消 


第 3 章 信息 检索 的 基本 知识 / 47 


化 吸收 能 力 。 信 息 意识 含有 信息 认 知 、 信 息 情感 和 信息 行为 倾向 三 个 层面 。 信 息 素 养 ( 素 
质 ) (information literacy) 一 词 最 早 是 由 美国 信息 产业 协会 主席 Paul 在 1974 年 给 美国 政 
府 的 报告 中 提出 来 的 。 他 认为 : 信息 素质 是 人 们 在 工作 中 获取 信息 、 学 习 信 息 技 术 、 利 用 
信息 资源 解决 问题 的 能 力 。 

(2) 信息 源 掌握 。 信 息 检索 的 基础 是 信息 源 ( 信 息 的 来 源 ) 掌 握 。 信息 源 的 构成 : 按 
文献 载体 分 为 印刷 型 .缩微 型 .机 读 型 . 声 像 型 和 网 络 型 信息 源 ; 按 文献 内 容 和 加 工程 度 分 
为 一 次 信息 源 、 二 次 信息 源 与 三 次 信息 源 ; 按 出 版 形式 分 为 图 书 、 报 刊 . 研 究 报 告 .会议 信 
息 、 专 利信 息 、 统 计数 据 、 政 府 出 版 物 、 档 案 、 学 位 论文 与 标准 信息 等 信息 源 ( 它 们 被 认为 是 
十 大 传统 信息 源 , 其 中 后 八 种 被 称 为 特种 文献 )。 对 于 学 习 者 而 言 , 学 习 与 研究 型 信息 源 
主要 分 布 在 教育 类 图 书 专业 研究 期 刊 .学 位 论文 等 不 同类 型 的 出 版 物 及 其 数据 库 中 。 

(3) 信息 获取 能 力 。 信 息 获 取 能 力 是 信息 检索 的 核心 元 素 。 获 取 能 力 要 求 : 了 解 各 
种 信息 来 源 ;掌握 检索 语言 .熟练 使 用 检索 工具 、 能 对 检索 效果 进行 判断 和 评价 。 判 断 检 
索 效 果 的 两 个 指标 , 查 全 率 = 被 检 出 相关 信息 量 / 相 关 信 息 总 量 (%); 查 准 率 = 被 检 出 相 
关 信 息 量 / 被 检 出 信息 总 量 (%)。 

(4) 信息 共享 与 利用 。 信 息 共享 与 利用 是 信息 检索 的 关键 所 在 。 社 会 进步 的 过 程 就 
是 一 个 信息 不 断 的 生产 一 存储 一 传播 一 再 生产 的 过 程 。 为 了 全 面 ` 有 效 地 利用 现 有 信息 
资源 促进 我 们 的 学 习 、 工 作 和 生活 效率 与 质量 ,各 行 各 业 信息 检索 的 需求 量 与 检索 活动 的 
比例 与 日 俱 增 。 


3.1.4 信息 检索 的 领域 与 范畴 

信息 检索 作为 一 个 学 科 或 研究 领域 ,是 信息 学 领域 的 一 个 重要 分 支 。 

信息 检索 的 基本 知识 与 原理 来 源 于 计算 机 科学 、 数 学、 信息 科学 .语言 学 .信息 论 .图 
书馆 学 .情报 学 、. 认 知心 理学 .语言 学 .统计 学 .管理 学 等 学 科 , 现 在 已 经 扩充 拓展 到 了 财 
经 、 化 学 \ 物 理学、 航空 航天 等 领域 ,又 随 着 人 工 智 能 、 认 知 科 学 、 计 算 机 技术 、 互 联网 技术 、 
大 数据 挖掘 .神经 科学 、 多 媒体 技术 、` 云 计算 、 智 慧 城市 .智慧 社区 和 智慧 教育 等 新 兴 领 域 
的 不 断 延 伸 与 交叉 融合 ,当今 信息 检索 将 逐渐 适应 人 脑 的 思维 方式 ,实现 智能 高效、 快速 
而 灵活 的 信息 检索 与 共享 ,最 终 达 到 随心 所 和 欲 查 找 、 快 速 获 取 和 高 效 利 用 信息 的 目的 。 

信息 检索 的 研究 日 益 与 数学 .计算 机 科学 .系统 学 .语言 学 .信息 论 等 学 科 紧 密 结合 起 
来 ,大 大 扩展 了 自身 研究 领域 和 研究 队伍 ,数学 .通信 、 计 算 机 科学 、 管 理学 .语言 学 等 领域 
的 许多 学 者 与 专家 也 加 入 到 信息 检索 研究 领域 ,形成 一 种 学 科 深 度 融 合 的 新 局 面 。 在 计 
算 机 技术 领域 的 新 硬件 .新 软件 .新 技术 、 新 方法 的 支持 下 ,信息 检索 的 研究 水 平 也 已 从 现 
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象 描述 阶段 进入 大 规模 试验 阶段 ,新 的 文摘 方法 、 索 引 语言 .索引 方法 、 智 能 分 析 技 术 、 高 
层次 检索 系统 应 用 产品 及 其 检索 质量 评价 方法 等 分 支 研究 领域 不 断 涌现 ,从 而 为 建立 起 
信息 检索 技术 理论 和 研究 方法 体系 英 定 了 基础 ,为 满足 广大 信息 用 户 在 信息 化 社会 环境 
中 日 益 增长 的 信息 需要 奠定 了 基础 。 


3.1.5 信息 检索 的 类 型 

随 着 信息 检索 逐步 被 人 们 认识 .掌握 ,利用 以 及 人 们 对 信息 不 断 增长 的 需求 ,信息 检 
索 类 型 也 得 到 不 断 丰 富 。 按 照 不 同 的 标准 ,信息 检索 可 划分 为 不 同类 型 。 按 照 信息 检索 
对 象 以 及 信息 表现 形式 的 不 同 , 可 分 为 简单 的 纸 质 载 体 信 息 形 式 和 较 复 杂 的 电子 媒体 形 
式 。 按 照 信息 检索 内 容 可 分 为 书目 检索 .数据 检索 .事实 检索 .全 文 检索 、 图 像 检 索 和 音频 

(1) 书目 检索 (bibliography retrieval) , 它 是 以 纸 质 载 体 为 检索 对 象 的 信息 检索 。 即 
检索 内 容 存 储 于 书目 索引、 文摘 等 纸 质 文献 (例如 图 书馆 馆藏 书目 .美国 的 科学 文摘 等 ) 
中 , 它 是 原始 文献 信息 (图 书 、 期 刊 . 报 纸 等 ) 的 外 表 特征 与 内 部 特征 的 简化 描述 ,是 传统 文 
献 资源 的 “替代 物 ”, 信 息 用户 通 过 检索 获得 的 是 与 检索 课题 有 关 的 一 系列 文献 线索 ,然后 
通过 查阅 和 阅读 决定 取舍 。 书 目 检 索 相 对 于 全 文 检索 数据 检索 、 事 实 检索 而 言 是 产生 较 
早 的 检索 形式 ,其 发 展 也 较 快 ,比如 各 个 图 书馆 的 “馆藏 书目 检索 数据 库 ”。 

(2) 数据 检索 (data retrieval) 。 数 据 检 索 具 有 数量 性 质 , 它 是 以 数值 形式 表示 检索 内 
容 的 信息 检索 形式 , 即 其 中 存储 大 量 数据 以 便 查 出 专门 的 数据 资料 ,这 种 专门 的 数据 经 过 
专门 的 测试 .评价 及 筛选 ,用 户 检索 到 的 各 种 数据 可 直接 使 用 或 进行 定量 分 析 , 例 如 各 种 
统计 行业 、 金 融 业 证券 业 等 行业 的 数据 检索 与 分 析 库 。 

(3) 事实 检索 (fact retrieval) 。 事 实 检索 是 以 信息 资源 中 抽取 的 事实 为 检索 内 容 的 
信息 检索 , 它 从 检索 系统 存储 的 各 种 原始 信息 资料 中 查找 特定 的 事实 材料 为 检索 目的 。 
事实 材料 指出 事物 的 性 质 、 定 义 、 原 理 与 发 生 的 地 点 、 时 间 以 及 因果 关系 等 ,例如 各 类 报 
业 、 电 视 等 媒介 集团 的 新 闻 门 户 网 站 提供 事实 类 信息 检索 的 资源 十 分 丰富 。 

(4) 全 文 检索 (full-text retrieval) 。 全 文 检索 是 原始 信息 所 含 的 全 部 信息 , 即 以 整 篇 
文章 或 整体 图 书 为 检索 内 容 的 检索 需要 ,检索 的 内 容 可 以 是 全 文 ,也 可 以 是 部 分 内 容 , 并 
可 以 进行 各 种 频率 的 统计 和 内 容 分 析 , 它 通常 用 自然 语言 表达 检索 需求 。 全 文 检索 是 现 
代 检 索 的 发 展 方向 , 它 与 书目 检索 最 根本 的 区 别 是 它 对 最 终 需求 的 信息 进行 了 最 全 面 的 
描述 。 例 如 传统 的 科学 文摘 或 搜索 引擎 ,只 是 提供 了 最 终 需 求 信息 的 “线索 ”( 例 如 简介 或 
链接 地 址 ) ,而 全 文 检索 直接 提供 原始 全 文 信息 。 
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(5) 图 像 检 索 (graphic retrieval) 。 图 像 检索 是 指 以 有 关 人 物事 物 的 图 片 . 图 像 和 图 
文 信息 为 检索 内 容 的 检索 活动 。 它 利用 计算 机 数据 库存 储 图 像 信息 ,以 图 形 的 色彩 、 纹 
理 、 轮 廓 等 特性 为 检索 方法 和 获取 依据 的 系统 。 这 类 检索 系统 在 教学 .科学 研究 .医疗 诊 
断 .旅游 参观 以 及 各 种 宣传 广告 领域 发 挥 着 重要 作用 。 视 频 信息 检索 也 属于 图 像 检 索 的 
大 范畴 ,因为 连续 的 视频 流 首先 要 分 割 为 图 像 后 才能 进行 特征 化 检索 处 理 。 

(6) 音频 检索 。 音 频 检 索 是 以 波形 声音 为 对 象 的 检索 ,这 里 的 音频 可 以 是 汽车 发 动 
机 声 、 雨 声 . 鸟 叫 声 , 也 可 以 是 语音 和 音乐 等 ,这 些 音频 都 统一 用 声学 特征 来 检索 。 使 信息 
用 户 能 从 大 型 音频 数据 库 中 或 一 段 长 录音 中 找到 感 兴趣 的 音频 内 容 是 音频 检索 的 目的 。 
音频 数据 的 训练 分 类 和 分 割 方便 了 音频 数据 库 的 浏览 和 查找 ,基于 听觉 特征 的 检索 为 用 
户 提 供 高 级 的 音频 查询 接口 。 音 频 检索 就 是 针对 广泛 的 声音 数据 的 检索 ,需要 检索 的 音 
频 可 以 包含 语音 和 音乐 ,但 是 采用 的 是 更 一 般 性 的 声学 特性 分 析 方 法 (包括 音频 特征 分 
市 ,提取 与 统计 等 处 理 )。 


3.2 信息 检索 涉及 的 相关 支撑 领域 


信息 检索 是 一 门 多 学 科 交叉 的 应 用 领域 。 信 息 检 索 的 对 象 包括 文字 、 图 像 . 图 表 、 音 
频 、 视 频 等 多 种 媒体 信息 ,信息 检索 需要 利用 各 类 媒体 处 理 技术 (比如 自然 语言 处 理 、 图 像 
人 处理、 语音 处 理 、 视 频 处 理 等 ) 对 信息 进行 加 工 , 找 出 一 定 的 结构 ,为 信息 检索 与 获取 提供 
支持 。 信 息 检 索 通 常 要 面 对 海 量 数据 ,普通 台式 机 的 处 理 能 力 远 远 不 够 ,并 行 与 分 布 式 处 
理 ` 云 计算 ,大 数据 处 理 等 新 的 理论 与 方法 在 这 个 领域 大 有 用 武之 地 。 数 据 库 和 数据 挖掘 
被 用 来 解决 结构 化 信息 检索 与 知识 发 现 问题 ,它们 已 取得 的 成 果 对 文本 信息 检索 与 文本 
信息 挖掘 都 有 直接 的 借鉴 作用 。 知 识 管理 ,情报 学 、 社 会 学 等 偏重 人 文 与 管理 的 学 科 从 不 
同 的 角度 使 用 信息 检索 技术 并 从 中 获 益 。 

(1) 自然 语言 处 理 。 自 然 语言 处 理 是 利用 计算 机 技术 处 理 语 言 信息 ,其 目的 是 让 计 
算 机 能 够 “理解 "人 类 的 语言 一 一 自然 语言 。 对 于 信息 检索 来 说 ,仅仅 停留 在 处 理 表层 文 
本 信息 是 远 远 不 够 的 ,字符 层面 的 匹配 与 相似 度 计 算 并 不 能 帮助 计算 机 理解 检索 对 象 文 
本 的 “含义 ”, 也 不 能 深入 理解 用 户 的 检索 意图 ,检索 出 的 结果 很 有 可 能 偏离 用 户 的 实际 信 
息 需 求 。 要 提高 检索 系统 自身 的 智能 化 水 平 ,以 及 检索 系统 人 机 交互 界面 的 自然 度 , 就 需 
要 不 断 地 将 自然 语言 处 理 结合 到 文本 信息 检索 中 来 。 

(2) 分 布 式 计算 。Internet 构成 了 人 类 历史 上 最 大 的 开放 性 信息 平台 ,拥有 海量 的 数 
据 。 面 对 巨大 的 文本 数据 ,大 量 的 检索 请 求 和 用 户 对 检索 时 间 的 严格 要 求 ,信息 检索 的 效 
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率 与 质量 必然 成 为 一 个 量 待 解决 的 问题 ,依靠 单 台 计算 机 不 可 能 完成 这 样 的 任务 ,必须 依 
靠 分 布 式 信息 检索 技术 才能 解决 。 事实 上 ,几乎 所 有 实用 的 大 型 搜索 系统 都 采用 了 分 布 
式 的 体系 结构 来 解决 信息 检索 中 的 效率 问题 。 

(3) 数据 库 技术 。 数 据 库 和 信息 检索 倒 然 一 对 姐妹 。 与 信息 检索 不 同 ,数据 库 的 处 
理 对 象 是 结构 化 信息 。 数 据 库 技术 已 经 有 比较 完整 的 理论 基础 ,而 信息 检索 的 经 验 性 比 
较 强 , 理 论 基础 相对 薄弱 ,需要 进一步 借鉴 数据 库 中 的 一 些 成 熟 理 论 。 信 息 检索 中 的 信息 
抽取 技术 旨 在 把 非 结构 化 数据 转化 为 结构 化 数据 ,以 数据 库 形式 存储 和 处 理 ,因而 ,信息 
检索 与 获取 问题 就 可 以 转化 为 数据 库 查询 问题 。 

(4) 数据 挖掘 。 数 据 挖掘 一 般 是 针对 数据 库 进行 的 ,借鉴 到 信息 检索 过 程 中 就 成 为 
文本 挖掘 。 面 向 非 结 构 化 数据 的 文本 挖掘 ,帮助 用 户 对 互联 网 上 庞杂 的 信息 进行 综合 分 
析 , 找 出 这 些 信息 背后 所 蕴含 的 规律 和 用 户 倾向 性 , 找 出 信息 的 本 质 含义 ,提升 搜索 质量 。 
其 中 对 用 户 的 信息 检索 日 志 进 行 数据 挖掘 能 够 从 总 体 上 观察 分 析 用 户 的 检索 行为 和 需求 
倾向 ,也 能 够 针对 每 个 个 体 用 户 的 需求 提供 个 性 化 服务 。 

(5) 情报 学 。 情 报 学 是 研究 情报 的 产生 、 传 递 和 利用 规律 的 学 科 , 是 研究 情报 流通 过 
程 和 情报 系统 保持 最 佳 效 能 的 一 门 学 问 。 它 能 帮助 人 们 充分 利用 信息 技术 手段 ,提高 情 
报 产 生 、 加 工 、 存 储 、 流 通 和 利用 的 效率 。 信 息 检索 和 情报 学 有 紧密 的 历史 渊源 ,情报 学 的 
理论 对 信息 检索 系统 的 设计 有 指导 作用 。 

(6) 社会 学 。 社 会 学 是 研究 社会 发 展现 象 和 规律 的 科学 。 随 着 搜索 引擎 技术 的 使 用 
越 来 越 广泛 ,社会 学 家 通过 对 众多 用 户 使 用 搜索 引擎 的 行为 (比如 浏览 了 哪些 网 页 、 输 入 
了 哪些 查询 词 . 网 页 点 击 量 与 停留 时 间 、 输 入 检索 关键 词 的 数量 与 频率 等 用 户 行为 特征 ) 
进行 分 析 和 统计 ,来 研究 社会 心理 ,行为 或 群体 信息 交流 的 状态 和 趋势 ,为 信息 资源 聚 类 、 
用 户 特 征 聚 类 和 提升 检索 质量 起 着 重要 作用 。 

(7) 云 计算 。 云 计算 (cloud computing) 是 分 布 式 计 算 (distributed computing) 并行 
计算 (parallel computing) ,效用 计算 (utility computing)、 网 络 存储 Cnetwork storage) 、 虚 
拟 化 (virtualization) 、 负 和 载 均 衡 (load balance) 、 热 备份 元 余 (high available) 等 传统 计算 机 
和 网 络 技术 发 展 融合 的 产物 。 美国 国家 标准 与 技术 研究 院 (NIST) 定 义 : 云 计算 是 一 种 
按 使 用 量 付费 的 模式 ,这 种 模式 提供 可 用 的 、 便 捷 的 、 按 需 的 网 络 访问 。 这 种 资源 池 称 为 
“ 云 ”。“ 云 ”是 一 些 可 以 自我 维护 和 管理 的 虚拟 计算 资源 ,通常 是 一 些 大 型 服务 器 集群 , 包 
括 计 算 服 务 器 、 存 储 服 务 器 和 宽带 资源 等 。 云 计算 将 计算 资源 集中 起 来 ,并 通过 专门 软件 
实现 自动 管理 ,无 须 人 为 参与 。 用 户 可 以 动态 申请 部 分 资源 ,支持 各 种 应 用 程序 的 运转 ， 
无 须 为 烦琐 的 细节 而 烦恼 ,能够 更 加 专注 于 自己 的 业务 .有 利于 提高 效率 、 降 低 成 本 和 技 
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术 创 新 。 

(8) 大 数据 。 大 数据 (big data) 指 无 法 在 可 承受 的 时 间 范 围 内 用 常规 软件 工具 进行 
捕捉 \ 管 理 和 处 理 的 海量 信息 和 数据 集合 ,需要 新 处 理 模 式 来 处 理 日 益 膨胀 的 海量 信息 和 
数据 集合 ,这 种 模式 需要 具备 更 强 的 决策 力 、 洞 察 发 现 力 和 流程 优化 能 力 , 来 生成 高 增长 
率 和 多 样 化 的 信息 检索 、 共 享 与 利用 资产 。 在 维克托 。 迈 尔 - 舍 恩 伯 格 及 肯 尼 斯 . 库 克 耶 
编写 的 《大 数据 时 代 ) 中 : 大 数据 指 不 用 随机 分 析 法 (传统 的 信息 抽样 调查 ) 这 样 的 捷径 ， 
而 采用 所 有 的 数据 进行 分 析 处 理 。 大 数据 的 5V 特点 (IBM 提出 ): Volume( 大 量 )、 
Velocity( 高 速 )、Variety( 多 样 )、Value( 价 值 ) 和 Veracity( 真 实 性 )。 

我 国 高 度 重视 大 数据 发 展 。 经 李克强 总 理 签 批 ,2015 年 9 月 国务 院 印发 4 促进 大 数 
据 发 展 行动 纲要 》, 系 统 部 署 大 数据 发 展 工作 。 明 确 推动 大 数据 发 展 和 应 用 ,在 未 来 5 一 
10 年 打造 精准 治理 .多方 协 作 的 社会 治理 新 模式 ,建立 运行 平稳 .安全 高 效 的 经 济 运行 新 
机 制 ,构建 以 人 为 本 .惠及 全 民 的 民生 服务 新 体系 ,开启 大 众 创业 万众 创新 的 创新 驱动 新 
格局 ,培育 高 端 智能 、 新 兴 繁 荣 的 产业 发 展 新 生态 。 一 要 加 快 政府 数据 开放 共享 ,推动 资 
源 整合 ,提升 治理 能 力 。 大 力 推动 政府 部 门 数据 共享 ,稳步 推动 公共 数据 资源 开放 ,统筹 
规划 大 数据 基础 设施 建设 ,支持 宏观 调控 科学 化 ,推动 政府 治理 精准 化 ,推进 商事 服务 便 
捷 化 ,促进 安全 保障 高 效 化 ,加 快 民生 服务 普 惠 化 。 二 要 推动 产业 创新 发 展 ,培育 新 兴业 
态 ,助力 经 济 转型 。 发 展 大 数据 在 工业 、 新 兴 产 业 、 农 业 农 村 等 行业 领域 应 用 ,推动 大 数据 
发 展 与 科研 创新 有 机 结合 ,推进 基础 研究 和 核心 技术 攻关 ,形成 大 数据 产品 体系 ,完善 大 
数据 产业 链 。 三 要 强化 安全 保障 ,提高 管理 水 平 , 促 进 健 康 发 展 。 健 全 大 数据 安全 保障 体 
系 , 强 化 安全 支撑 。 


3.3 信息 检索 的 前 沿 与 热点 问题 


3.3.1 信息 检索 的 发 展 趋势 

如 何 快速 、 准 确 、 全 面 地 检索 并 获取 到 所 需 信 息 ,在 信息 时 代 无 论 对 于 个 人 或 组 织 都 
十 分 重要 。 近 年 来 ,信息 检索 取得 了 飞速 的 发 展 ,特别 值得 一 提 的 是 ,中 文 全 文 检 索 技 术 
的 发 展 非常 迅速 ,并 且 国内 自主 开发 的 产品 取得 了 绝 大 部 分 的 市 场 份额 ,这 对 于 一 个 以 核 
心 技术 为 竞争 优势 的 领域 是 非常 难能可贵 的 。 著 名 的 全 文 检索 系统 TRS 在 政府 企业 、 
媒体 和 教育 领域 都 取得 了 卓越 的 成 绩 ,市 场 占有 率 在 70% 以上。 目前 全 文 检索 的 技术 已 
经 比较 成 熟 ,正在 得 到 广泛 应 用 ,而 多 媒体 检索 和 智能 检索 的 研究 与 应 用 还 有 一 定 距离 。 
主要 面临 的 问题 是 音频 与 视频 检索 技术 及 其 人 工 智能 检索 技术 的 发 展 还 不 尽 如 人 意 。 在 


52 /大 学 生 信 息 检索 素养 教程 


网 络 搜索 引擎 方面 主要 是 向 集成 化 .专业 化 方向 发 展 , 单 一 搜索 引擎 过 渡 到 集成 化 的 多 元 
搜索 引擎 和 专业 化 的 检索 与 信息 服务 领域 。 随 着 网 络 信息 量 的 迅猛 膨胀 ,对 智能 化 检索 
工具 的 智能 化 程度 提出 了 更 高 的 要 求 。 智 能 化 程度 高 的 检索 工具 在 竞争 中 将 明显 地 处 于 
有 利 的 地 位 。 总 的 来 说 ,信息 检索 技术 有 以 下 一 些 发 展 趋势 。 

1. 可 视 化 和 多 样 化 

信息 检索 中 的 可 视 化 ,是 将 数据 库 中 不 可 见 的 语义 关系 用 图 像 形 式 可 视 化 显示 ,并 可 
视 化 表达 用 户 检 索 过 程 。 而 网 络 信 息 检索 多 样 化 首先 表现 在 可 以 检索 的 信息 形态 有 文 
本 声音、 图 像 .动画 等 信息 资源 。 目 前 网 络 信息 检索 的 主体 是 文本 信息 ,基于 内 容 的 检索 
技术 和 语音 识别 技术 的 发 展 , 将 使 多 媒体 信息 的 检索 变 得 逐渐 普遍 。 基 于 内 容 的 检索 是 
指 根据 媒体 和 媒体 对 象 的 内 容 及 上 下 文联 系 在 大 规模 多 媒体 数据 库 中 进行 检索 。 它 的 发 
展 目标 是 提供 在 没有 人 参与 的 情况 下 能 自动 识别 或 理解 图 像 重 要 特征 。 目 前 ,基于 内 容 
的 多 媒体 信息 检索 的 主要 工作 集中 在 识别 和 描述 图 像 的 颜色 .纹理 ,形状 .空间 关系 上 ,对 
于 视频 数据 ,还 有 视频 分 割 、 关 键 帧 提取 、 场 景 变换 感知 以 及 故事 情节 重 构 等 问题 。 由 此 
可 见 , 这 是 一 门 涉及 面 很 广 的 交叉 学 科 , 需 要 利用 图 像 处 理 、 模 式 识 别 . 计 算 机 视觉 .图 像 
理解 等 领域 的 知识 作为 基础 ,还 需 从 认 知 科学 .人 工 智能 .数据 库 管 理 系统 .人 机 交互 、 信 
息 检 索 处 理 技术 等 领域 引入 新 的 媒体 数据 表示 和 数据 模型 , 才 可 能 设计 出 可 靠 有 效 的 检 
索 算法 、 系 统 结构 以 及 友好 的 人 机 交互 界面 。 多 样 化 的 第 二 个 表现 是 检索 工具 向 多 国 化 、 
多 语种 化 方向 发 展 。 多 样 化 的 第 三 个 表现 是 网 上 检索 工具 的 服务 形式 多 样 化 。 

2. 集成 化 

目前 种 类 繁多 的 网 络 数据 库 都 缺乏 统一 的 数据 描述 标准 ,但 是 信息 查询 方式 大 相 径 
庭 。 数 据 类 型 不 同 ,信息 系统 返回 给 用 户 的 检索 结果 也 不 尽 相 同 。 因 此 ,用 户 在 使 用 各 种 
信息 资源 库 之 前 ,必须 花费 大 量 时 间 对 其 检索 方法 、 检 索 系 统 逐 一 学 习 和 掌握 ,同时 用 户 
在 对 不 同 的 数据 库 进行 检索 时 还 必须 切换 不 同 的 检索 交互 界面 ,采用 不 同 的 专用 阅读 器 
进行 不 同 格式 的 数据 转换 和 阅读 。 鉴 于 这 些 诸多 的 不 便 之 处 ,集成 化 已 成 为 信息 检索 服 
务 的 一 大 发 展 趋势 。 例 如 数字 图 书馆 通过 提供 集成 检索 机 制 ,方便 用 户 从 一 个 检索 界面 
同时 检索 数字 图 书馆 的 所 有 资源 ,避免 重复 多 次 登录 、 多 次 检索 的 麻烦 。 用 户 利用 集成 信 
息 检 索 服务 时 ,所 面 对 的 是 "一步 到 位 ” 式 的 一 站 式 计算 机 检索 界面 ,而 后 台 则 是 整体 化 的 
信息 资源 保障 体系 。 目 前 国内 的 CNKI、 重 庆 维 普 等 数据 库 都 正在 尝试 实现 本 公司 开发 
的 不 同 数据 库 之 间 的 集成 检索 ;而 国外 如 OCLC 已 开发 出 帮助 数字 图 书馆 建立 集成 信息 
检索 的 工具 一 一 OCLC Web Express, 使 用 它 可 以 把 OCLC 提供 的 各 种 服务 与 数字 图 书 
馆 的 其 他 电子 资源 集成 在 一 个 界面 上 ,便利 用 户 对 信息 资源 的 集成 检索 ;可 把 馆 内 外 、 远 
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程 和 本 地 的 信息 资源 统一 到 独立 的 集成 服务 界面 ,把 OCLC 和 非 OCLC 的 信息 资源 集合 
到 统一 的 搜索 界面 上 。 

3. 个 性 化 

为 了 提高 用 户 满意 程度 ,将 用 户 所 需 信 息 准 确 返 回 ,信息 检索 必须 向 个 性 化 方向 发 
展 。 信 息 检索 个 性 化 的 核心 是 跟踪 分 析 用 户 的 检索 行为 和 个 性 化 信息 检索 需求 ,充分 利 
用 这 些 信息 来 提高 用 户 的 检索 效率 。 通 过 检索 行为 分 析 提 高 检索 效率 的 途径 有 两 种 : 
“群体 行为 分 析 ”( 比 如 一 些 数据 库 中 列 出 的 “热门 关键 词 ? 就 是 这 种 分 析 的 运用 结果 ) 和 
“个 性 化 检索 ”( 通 过 积累 用 户 的 检索 个 性 化 数据 ,使 用 户 的 检索 更 深入 、 更 精确 )。 信 息 检 
索 服务 个 性 化 还 表现 在 实现 用 户 检 索 习 惯 的 个 性 化 定制 。 在 用 户 检 索 网 络 资源 或 数据 库 
信息 过 程 中 ,往往 由 于 拥有 的 检索 知识 和 所 处 领域 不 同 ,其 检索 操作 和 检索 习惯 也 有 所 差 
异 。 例 如 ,初学 者 习惯 于 简单 检索 ,而 专业 人 员 则 习惯 于 使 用 高 级 检索 。 此 外 ,不 同 用 户 
对 检索 结果 的 选取 原则 和 排序 方法 也 不 尽 相 同 。 例 如 ,有 的 人 希望 按 相关 度 排序 ,有 的 则 
偏向 于 按 网 站 的 点 击 量 ,如 此 种 种 都 反映 了 用 户 的 个 性 化 需求 。 因 此 ,个 性 化 检索 服务 还 
应 包含 对 习惯 性 检索 机 制 的 定制 ,主要 应 包括 检索 工具 定制 , 即 选 用 常用 的 搜索 引擎 和 数 
据 库 ; 检 索 表 示 方 式 定制 ,可 选择 常用 的 检索 式 ( 如 布尔 逻辑 检索 式 中 的 “与”“ 或 "“ 非 ” 
等 逻辑 查询 ) 为 默认 方式 ;检索 结果 处 理 定制 ,可 对 检索 结果 的 相关 度 计算 标准 、 输 出 格 
式 排序 方 式 等 进行 定制 。 

4. 智能 化 

准确 的 信息 检索 工具 应 建立 在 对 收集 信息 和 检索 请 求 的 理解 之 上 ,也 就 是 说 必须 处 
理 语义 信息 。 传 统 的 信息 检索 是 被 动 式 的 ,而 利用 智能 代理 技术 进行 主动 信息 检索 则 逐 
渐 成 为 这 一 领域 的 焦点 。 其 中 通过 对 用 户 的 信息 需求 规划 、 检 索 意 图 、 需 求 兴 趣 或 专业 方 
向 进行 推理 , 预测 并 为 用 户 提供 有 效 的 检索 反馈 。 信 息 检 索 智 能 化 使 用 自动 获得 的 知识 
进行 信息 收集 过 滤 ,并 自动 将 用 户 感 兴趣 的 信息 通过 电子 邮件 .社交 网 络 平台 或 其 他 方式 
提交 给 信息 用 户 。 智 能 检索 工具 由 于 将 信息 检索 从 目前 基于 关键 词 层面 提 高 到 基于 知识 
(或 概念 ) 本 体 层面 ,对 知识 有 一 定 的 理解 与 处 理 能 力 , 能 实现 智能 分 词 与 切 词 技术 、 同 义 
词 与 近义词 辨析 、 概 念 检索 、 短 语 识别 以 及 机 器 翻译 等 ,从 而 使 信息 检索 更 具有 智能 化 和 
人 性 化 特征 。 

5. 基于 网 格 的 信息 检索 

网 格 的 构想 来 源 于 电网 ,就 像 人 们 使 用 电器 设备 ,能 量 从 电网 中 迅速 传输 到 所 需 设备 
中 。 网 格 实际 上 就 是 利用 互联 网 将 分 散 于 不 同 地 域 的 计算 机 组 织 起 来 ,成 为 一 个 虚拟 的 
超级 计算 机 ,每 台 参 与 的 计算 机 就 是 一 个 “节点 ”, 成 千 上 万 的 节点 纵横 交错 ,构成 一 张 “ 网 
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格 ” 或 “计算 机 云 "。 它 可 以 连接 和 统一 各 类 不 同 远程 资源 ,实现 互联 网 上 所 有 资源 的 全 面 
连通 与 透明 化 ,在 动态 的 、 异 构 的 虚拟 组 织 间 实 现 网 络 虚拟 环境 上 的 资源 共享 和 协同 工 
作 , 从 而 消除 信息 检索 与 共享 过 程 中 的 信息 孤岛 和 资源 孤岛 。 美 国 科 学 家 、 网 格 运算 项 目 
领导 人 之 一 的 Lan Foster 曾 描述 : 网 格 是 构筑 在 Internet 上 的 一 组 新 兴 技 术 ,将 高 速 互 
联网 .电脑 ,大 型 资料 库 、 传 感 器 、. 远 端 设备 等 融 为 一 体 ,为 科技 人 员 与 普通 网 民 提 供 更 多 
精准 资源 .增值 功能 及 个 性 服务 。 由 于 网 格 的 特性 与 信息 检索 存在 共同 点 ,利用 网 格 中 的 
一 些 原理 可 以 解决 目前 现代 信息 检索 在 网 络 环境 下 所 出 现 的 一 些 问 题 , 从 而 实现 信息 检 
索 的 智能 化 .个 性 化 与 标准 化 发 展 要 求 。 欧 盟 早 在 2002 年 就 开始 研究 基于 网 格 的 信息 检 
索 项 目 研究 员 。 它 在 同年 启动 的 GRACE 计划 的 目标 就 是 开发 一 个 基于 网 格 技术 的 支持 
实时 数据 .灵活 数据 分 配 和 计算 资源 的 信息 检索 系统 。GRACE 系统 是 欧盟 数据 网 格 项 
目 中 的 一 个 重要 部 分 。 随 着 网 格 技术 研究 在 世界 各 地 的 兴起 ,基于 网 格 的 信息 检索 技术 
将 成 为 未 来 的 一 个 发 展 方向 ,用 户 能 够 以 透明 的 方式 获取 资源 ,用 户 无 须 考 虑 资源 的 位 置 
和 获取 时 间 ,实现 获取 资源 的 一 站 式 服 务 。 

6. 专业 化 信息 检索 

现代 信息 检索 技术 的 另 一 个 发 展 趋势 是 检索 专业 化 。 专 业 化 信息 检索 是 指 面向 某 一 
特定 专业 或 学 科 领 域 ,提供 高 质量 的 专业 信息 检索 服务 。 专 业 化 信息 检索 需求 的 出 现 主 
要 因为 网 络 信息 资源 越 来 越 丰 富 ,而 综合 性 检索 系统 (比如 搜索 引擎 ) 查 询 专 业 信 息 越 来 
越 困 难 ,效率 比较 低 ,往往 不 能 检索 到 高 质量 的 专业 信息 。 发 展 专业 化 检索 将 是 未 来 的 一 
个 研究 热点 。 专 业 化 信息 检索 将 只 涉及 某 一 学 科 、 某 一 领域 或 特定 需求 的 信息 ,这 些 信息 
相对 集中 , 且 其 编制 通常 有 本 专业 领域 人 员 参 与 ,因此 它 不 仅 可 以 提高 检索 速度 ,还 可 以 
提高 信息 专 指 度 , 加 大 检索 深度 和 检索 力度 ,从 而 提高 查 全 率 和 查 准 率 。 目 前 在 某 些 领域 
已 经 存在 专业 搜索 引擎 ,而 且 这 种 数量 必 将 越 来 越 多 。 国 际 上 著名 的 PubMed 就 是 美国 
国家 医学 图 书馆 开发 的 医学 专业 信息 的 检索 工具 。 世 界 范 围 内 学 科 信息 门户 的 兴起 也 是 
专业 化 信息 检索 的 一 种 体现 。 英 国资 源 发 现 网 络 ( Resource Discovery Network) 开发 的 
社会 科学 信息 门户 ( SOSIG) 的 宗旨 就 是 为 社会 科学 领域 内 的 研究 者 提供 筛选 的 高 质量 
网 络 信息 。 中 国 科学 院 国家 科学 数字 图 书馆 已 建成 包括 物理 和 数学 在 内 的 六 大 学 科 信息 
门户 ,提供 每 一 个 学 科 领 域内 专业 化 的 信息 资源 。 另 外 ,专业 化 信息 检索 不 但 体现 在 其 搜 
索 内 容 的 专业 性 上 ,也 体现 在 其 搜索 媒体 性 质 的 专门 性 上 。 比 如 ,致力 于 检索 图 片 的 图 片 
搜索 引擎 .致力 于 检索 音乐 的 音乐 检索 系统 ,这 种 针对 专门 性 质 媒体 的 检索 工具 也 在 不 断 
增多 。 专 业 化 信息 检索 系统 在 提供 专业 信息 方面 有 着 大 型 综合 检索 引擎 无 法 比拟 的 优 
势 , 它 所 采用 的 基本 技术 同 综合 引擎 一 样 ,而 且 基 本 上 是 成 熟 的 技术 ,它们 的 发 展 没有 技 
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术 障 碍 ,同时 正 符合 了 Internet 发 展 的 一 个 趋势 :Internet 将 更 专业 化 、 分 工 更 细 , 因 而 专 
业 化 信息 检索 系统 将 能 更 好 地 为 不 同 领域 的 用 户 提供 个 性 化 的 服务 。 

总 之 ,未 来 的 信息 检索 发 展 将 在 理念 技术. 人 性 化 .智能 化 等 方面 取得 全 面 突破 , 逐 
渐 适 应 人 脑 的 思维 方式 ,实现 智能 ,高 效 . 快 速 而 灵活 的 信息 检索 ,最 后 达到 随心 所 和 欲 地 查 
找 、 迅 速 获取 所 需 信息 的 水 平 。 当 然 , 这 些 突破 也 需要 计算 机 硬 软件 技术 、 通 信 技 术 、 人 工 
智能 技术 可视化 技术 等 相关 技术 支持 ,但 无 论 如 何 ,未 来 的 信息 检索 一 定 会 以 一 个 轿 新 
的 面貌 出 现在 人 们 面前 ,促进 人 们 对 无 序 信息 世界 的 有 序 化 组 织 , 促 进 信息 资源 得 到 更 为 
合理 的 查询 .共享 和 利用 


3.3.2 信息 检索 的 热点 问题 

(1) 智能 检索 或 知识 检索 。 传 统 的 全 文 检索 基于 关键 词 匹 配 进 行 检 索 , 往 往 存 在 查 
不 全 查 不 准 、 检 索 质量 不 高 的 现象 ,特别 是 在 网 络 信息 时 代 , 利 用 关键 词 匹配 很 难 满足 人 
们 的 检索 要 求 。 智 能 检索 利用 分 词 词典 、 同 义 词典 ,同音 词典 改善 检索 效果 ,比如 用 户 查 
询 * 计 算 机 ”时 ,与 “电脑 ”相关 的 信息 也 能 检索 出 来 ;进一步 还 可 在 知识 层面 或 者 概念 层面 
上 辅助 查询 ,通过 主题 词典 、 上 下 位 词典 、 相 关 同 级 词典 ,形成 一 个 知识 体系 或 概念 网 络 ， 
给 予 用 户 智 能 知识 提示 ,最 终 帮 助 用 户 获得 最 佳 的 检索 结果 。 比 如 用 户 查 询 “ 计 算 机 ”时 ， 
用 户 可 以 进一步 缩小 查询 范围 至 “微机 ”“ 服 务 器 ”或 扩大 查询 至 “信息 技术 ”或 查询 相关 
的 "电子 技术 ”“ 软 件 ”"“ 计 算 机 应 用 ”等 范畴 。 另 外 ,智能 检索 还 包括 歧义 信息 和 检索 处 
理 , 如 “苹果 ”, 究 竞 指 的 是 水 果 还 是 手机 与 平板 电脑 的 品牌 ,“ 华 人 ”与 “中 华人 民 共 和 国 ” 
的 区 分 ,将 通过 歧义 知识 描述 库 、 全 文 索 引 、 用 户 检索 上 下 文 分 析 以 及 用 户 相关 性 反馈 等 
原理 进行 联合 处 理 ,高 效 、 准 确 地 反馈 给 用 户 最 需要 的 信息 。 

(2) 知识 挖掘 。 知 识 挖掘 目前 主要 指 文本 挖掘 ,目的 是 帮助 人 们 更 好 地 发 现 ` 组 织 、 
表示 信息 ,提取 知识 ,满足 信息 检索 的 高 层次 需要 。 知 识 挖掘 包括 摘要 、 分 类 ( 聚 类 ) 和 相 
似 性 检索 等 方面 。 

(3) 自动 摘要 。 自 动 摘要 就 是 利用 计算 机 自动 地 从 原始 文献 中 提取 文摘 信息 。 在 信 
息 检索 中 ,自动 摘要 技术 有 助 于 用 户 快速 评价 检索 结果 的 相关 程度 。 在 信息 服务 中 ,自动 
摘要 有 助 于 多 种 形式 的 内 容 分 发 ,如 发 往 PDA、 手 机 等 。 相 似 性 检索 技术 基于 文档 内 容 
特征 检索 与 其 相似 或 相关 的 文档 ,是 实现 用 户 个 性 化 相关 反馈 的 基础 ,也 可 用 于 去 重 分 
析 。 自 动 分 类 可 基于 统计 或 规则 ,经 过 机 器 学 习 形 成 预定 义 分 类 树 ,再 根据 文档 的 内 容 特 
征 将 其 归 类 。 自 动 聚 类 则 是 根据 文档 内 容 的 相关 程度 进行 分 组 归并 。 自 动 分 类 ( 聚 类 ) 在 
信息 自 组 织 .智能 导航 方面 非常 重要 。 
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(4) 异 构 信息 整合 检索 和 全 息 检索 。 在 信息 检索 分 布 化 和 网 络 化 的 趋势 下 ,信息 检 
索 系统 的 开放 性 和 集成 性 要 求 越 来 越 高 ,需要 能 够 检索 和 整合 不 同 来 源 和 结构 的 信息 ,这 
是 异 构 信 息 检索 技术 发 展 的 基点 ,包括 支持 各 种 格式 化 文件 ,如 TEXT、HTML、XML、 
RTF、MS Office、.PDF、PS2/PS、Marc、ISO 2709 等 格式 化 信息 文档 ;支持 多 语种 信息 的 检 
索 ;支持 结构 化 数据 、 半 结构 化 数据 及 非 结 构 化 数据 的 统一 处 理 ; 与 关系 数据 库 检索 的 无 
颖 集成 以 及 其 他 开放 检索 接口 的 集成 等 。 所 谓 “ 全 息 检 索 ” 的 概念 就 是 支持 一 切 格 式 和 方 
式 的 检索 ,从 目前 实践 来 讲 , 发 展 到 异 构 信息 整合 检索 的 层面 ,基于 自然 语言 理解 的 人 机 
交互 以 及 多 媒体 信息 检索 整合 等 方面 尚 有 待 取得 进一步 突破 。 另 外 ,从 工程 实践 角度 , 综 
合 采用 内 存 和 外 部 存储 的 多 级 缓存 、 分 布 式 群集 和 负载 均衡 技术 也 是 信息 检索 技术 发 展 
的 重要 方面 。 随 着 互联 网 的 普及 和 电子 商务 的 迅猛 发 展 ,企业 和 个 人 可 获取 、 需 处 理 的 信 
息 量 呈 爆 发 式 增长 ,而 且 其 中 绝 大 部 分 都 是 非 结 构 化 和 半 结 构 化 数据 。 内 容 管理 的 重要 
性 日 益 凸 显 ,而 信息 检索 作为 内 容 管理 的 核心 支撑 技术 , 随 着 内 容 管 理 的 发 展 和 普及 , 亦 
将 应 用 到 各 个 领域 ,成 为 人 们 日 常 工 作 、 学 习 与 生活 的 密切 伙伴 。 

(5) 自然 语言 处 理 和 问答 系统 。 自 然 语言 处 理 的 应 用 ,在 一 定 程度 上 提高 了 信息 检 
索 的 效果 。 例 如 互联 网 舆情 分 析 系统 引入 主题 检测 和 热点 发 现 技术 ,对 文本 信息 态度 进 
行 分 析 ,为 与 情 监管 和 互联 网 信息 挖掘 的 研究 提供 了 数据 积累 和 技术 支持 。 此 外 ,还 有 学 
者 涉及 词义 消 歧 模型 的 研究 等 。 问 答 系统 是 通过 处 理 用 户 提出 的 自然 语言 问题 ,抽取 有 
效 信息 ,最 后 以 自然 语言 给 出 答案 的 一 个 工具 , 它 能 够 给 用 户 提供 相对 简洁 、 准 确 的 结果 ， 
因此 越 来 越 受到 学 者 的 关注 。 这 方面 的 研究 主要 包括 对 开放 域 问 答 系 统 进行 了 综述 , 介 
绍 了 其 系统 框架 、 主 要 技术 和 评测 方法 ;模式 推理 在 问答 系统 中 的 应 用 以 及 模式 推理 的 基 
本 方法 ,实现 了 常量 .变量 一 体 化 索引 的 算法 ,并 给 出 了 算法 分 析 等 。 

(6) 多 媒体 检索 。 多 媒体 检索 技术 是 对 图 片 .音乐 .视频 等 媒体 对 象 的 检索 处 理 , 也 
是 学 者 们 当前 关注 的 重要 热点 之 一 。 例 如 一 种 基于 小 波 和 Hough 变换 的 放射 不 变性 商 
标 检 索 方 法 ;一 种 基于 音频 信息 重复 性 的 广告 检测 方法 ;能 够 对 海量 音频 信息 进行 快速 检 
索 并 找到 检索 词 发 音准 确 位 置 的 关键 音 检索 系统 ;通过 对 足球 比赛 视频 中 的 场地 信息 和 
运动 信息 的 分 析 系 统 , 提 出 有 效 分 割 场地 和 运动 员 的 新 方法 。 

(7) 信息 检索 模型 与 算法 。 信 息 检索 模型 及 算法 是 信息 检索 领域 的 核心 ,其 涉及 的 
高 频 主题 词 包括 向 量 空 间 模 型 、 聚 类 、 算 法 、 查 询 扩 展 、 关 联 规则 和 机 器 学 习 , 这 方面 的 研 
究 主 要 表现 为 对 检索 模型 的 改进 与 完善 .扩展 和 应 用 。 例 如 对 面向 信息 检索 的 语言 模型 
存在 的 数据 稀 玻 问题 , 提 出 面向 信息 检索 的 近邻 语言 模型 圈 ; 解 决 排序 学 习 中 pairwise 方 
法 的 问题 ,分 别 基 于 单 层 神经 网 络 和 双 层 神经 网 络 的 RankNet 算法 ,加 入 pointwise 损失 
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函数 进行 优化 ,并 分 别 使 用 梯度 下 降 算法 和 反 向 传播 算法 训练 网 络 权 重 值 ,进而 得 到 排序 

(8) 文本 分 类 文本 表示 和 信息 安全 。 文 本 分 类 和 文本 表示 在 前 两 届 全 国信 息 检 索 
技术 学 术 会 议 中 研究 较 多 ,相关 研究 也 主要 集中 在 对 模型 和 方法 的 改进 和 完善 上 。 例 如 
通过 对 经 典 的 TF-IDF 函数 和 对 信息 特征 选择 方法 的 研究 ,提出 了 引入 类 间 分 布 度 、 类 内 
分 布 度 和 互信 息 因 子 的 改进 算法 ;新 的 特征 选择 和 加 权 方 法 以 类 信息 作为 调节 因子 ,使 均 
匀 分 布 于 单个 类 中 的 特征 更 具 代 表 性 ,弥补 了 传统 文本 分 类 方法 的 不 足 。 

(9) 文本 挖掘 .信息 抽取 与 信息 过 滤 。 文 本 数据 挖掘 (text mining) 是 指 从 文本 数据 
中 抽取 有 价值 的 信息 和 知识 的 处 理 技术 。 顾 名 思 义 ,文本 数据 挖掘 是 从 文本 中 进行 数据 
挖掘 (data mining)。 文 本 挖掘 种 类 有 两 类 : 即 基 于 单 文档 的 数据 挖掘 和 基于 文档 集 的 数 
据 挖 气 。 文 本 挖掘 方法 包括 : 文本 分 类 (文本 分 类 是 一 种 典型 的 机 器 学 习 方 法 ,一 般 分 为 
训练 和 分 类 两 个 阶段 ) .文本 聚 类 (文本 聚 类 是 一 种 典型 的 无 监督 式 机 器 学 习 方 法 , 聚 类 方 
法 的 选择 取决 于 数据 类 型 ) .信息 抽取 、 摘 要 和 数据 压缩 。 

信息 抽取 (information extraction ,IE) 是 把 文本 里 包含 的 信息 进行 结构 化 处 理 , 变 成 
表格 一 样 的 组 织 形式 。 输 入 信息 抽取 系统 的 是 原始 文本 ,输出 的 是 固定 格式 的 信息 点 。 
信息 点 从 各 种 各 样 的 文档 中 被 抽取 出 来 ,然后 以 统一 的 形式 集成 在 一 起 。 这 就 是 信息 抽 
取 的 主要 任务 。 信 息 以 统一 的 形式 集成 在 一 起 的 好 处 是 方便 检查 和 比较 。 信 息 抽 取 技 术 
并 不 试图 全 面 理解 整 篇 文档 ,只 是 对 文档 中 包含 相关 信息 的 部 分 进行 分 析 。 

信息 过 滤 是 大 规模 内 容 处 理 的 另 一 种 典型 应 用 。 它 是 对 陆续 到 达 的 信息 进行 过 滤 操 
作 , 将 符合 用 户 需 求 的 信息 保留 ,将 不 符合 用 户 需求 的 信息 过 滤 掉 。 通 常 可 分 为 不 良 信息 
过 滤 和 个 性 化 信息 过 滤 : 不 良 信 息 过 滤 一 般 指 过 滤 掉 暴力 ,反动 .色情 等 信息 ;个 性 化 信 
息 过 滤 类 似 于 专业 信息 检索 ,帮助 用 户 返 回 感 兴趣 的 专业 信息 。 


本 章 小 结 


“信息 检索 技术 ”的 概念 含义 可 以 从 信息 、 检 索 与 信息 检索 技术 三 个 概念 的 递 进 与 组 
合 关 系 进行 理解 与 把 握 。 信 息 指 的 是 事物 的 存在 方式 和 运动 状态 ,是 对 客观 世界 中 各 种 
事物 的 变化 和 特征 的 反映 ,是 客观 事物 之 间 相 互 作用 和 联系 的 表征 ,是 客观 事物 经 过 感知 
或 认识 后 的 再 现 。 广 义 的 信息 检索 是 指 将 信息 按 一 定 的 方式 组 织 和 存储 起 来 ,并 根据 用 
户 的 需要 找 出 有 关 信 息 的 过 程 ,所 以 它 的 全 称 又 叫 信息 存储 与 检索 。 信 息 检 索 技 术 是 跨 
越 多 学 科 领 域 的 信息 组 织 与 信息 提取 方法 的 融合 技术 ,是 针对 信息 获取 (acquisition). 信 
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息 表 示 (representation)、 信 息 存 储 (storage)、 信 息 组 织 (organization) 和 信息 访问 
(access) 的 特有 融合 性 技术 。 它 不 仅 涵盖 传统 针对 各 种 具体 文献 数据 库 的 图 书 情报 检索 
技术 ,也 包括 针对 现代 广 域 互 联网 的 网 络 信息 检索 技术 。 

信息 检索 是 一 门 多 学 科 交 叉 的 应 用 技术 领域 。 自 然 语 言 处 理 、 分 布 式 计 算 .数据 库 技 
术 数据 挖掘 、 情 报 学 、 社 会 学 等 多 个 领域 的 原理 与 方法 ,对 信息 检索 技术 研究 的 拓展 与 深 
入 有 重要 帮助 与 促进 作用 。 

包括 可 视 化 和 多 样 化 .集成 化 .个 性 化 、 智 能 化 .基于 网 格 和 云 计算 的 信息 检索 技术 、 
专业 化 信息 检索 等 热点 研究 领域 ,未 来 的 信息 检索 技术 将 在 理念 .技术 .人 性 化 .智能 化 等 
方面 取得 全 面 突破 ,逐渐 适应 人 脑 的 思维 方式 ,实现 智能 、 高 效 、. 快 速 而 灵活 的 信息 获取 的 
目的 。 

对 于 信息 检索 的 用 户 而 言 , 信 息 检 索 通 常 要 具备 四 个 基础 素养 : 用 户 信息 意识 、 信 息 
源 掌握 .信息 获取 能 力 、 信 息 共 享 与 利用 。 信 息 检 索 包 括 书 目 检索 、 数 据 检索 .事实 检索 、 
全 文 检索 .图像 检 索 和 音频 检索 等 基本 类 型 。 

智能 检索 或 知识 检索 ,知识 挖掘 、 自 动 摘 要 、 异 构 信息 整 合 检索 技术 和 全 息 检索 、 自 然 
语言 处 理 和 问答 系统 、 多 媒体 检索 技术 信息 检索 的 模型 与 算法 、 文 本 分 类 文本 表示 和 信 
息 安 全 文本 挖掘 、 信 息 抽取 与 信息 过 滤 等 各 个 层面 的 信息 检索 研究 ,日 益 成 为 目前 国内 
外 信息 检索 的 主要 研究 热点 。 


本 章 思 考 与 练习 题 


. 信息 检索 的 含义 是 什么 ? 

. 信息 检索 包括 哪些 方面 的 内 容 ? 

. 世界 上 第 一 个 信息 检索 系统 产生 在 何 时 何 地 ? 它 有 哪些 基本 信息 服务 功能 ? 
. 举例 说 明 “ 非 结构 化 信息 ”的 含义 。 

. 信息 检索 有 哪些 基本 类 型 ? 

. 信息 检索 有 哪些 支撑 领域 ? 

. 说 明 信 息 检索 的 主要 发 展 趋势 。 

. 信息 检索 有 哪些 热点 问题 ? 
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4.1 信息 源 及 其 类 型 


信息 源 也 就 是 我 们 在 检索 过 程 中 经 常 接触 到 的 不 同 信息 集合 或 者 不 同 检索 对 象 实 
体 , 也 就 是 我 们 获得 原始 信息 内 容 的 来 源 。 关 于 信息 源 的 分 类 ,从 不 同 的 角度 出 发 有 不 同 
的 分 类 方法 。 例 如 , 按 信息 内 容 的 时 效 性 特征 ,可 分 为 消息 性 信息 源 、 资 料 性 信息 源 和 知 
识 性 信息 源 ; 按 反映 信息 的 主客 观 性 可 将 其 分 为 客观 信息 源 和 主观 信息 源 , 或 者 分 为 事实 
信息 源 和 分 析 信 息 源 ; 按 信息 的 学 科 内 容 可 将 其 分 为 社 科 信息 源 、 科 技 信 息 源 ,经济 信息 
源 .军事 信息 源 、 体 育 信 息 源 等 。 

1. 依据 信息 内 容 的 加 工 层 次 划分 

(1) 零 次 信息 源 。 零 次 信息 源 指 存在 于 或 存储 于 非 正 规 载 体 上 未 经 任何 加 工 处 理 的 
源 信息 类 型 ,例如 书信 、 论 文 手稿 笔记、 实验 过 程 记 录 、 会 议 记 录 演讲 .口语 交流 等 。 这 
是 一 种 零星 的 分散 的 和 无 规则 的 信息 源 。 这 类 信息 源 是 近 几 十 年 来 被 图 书 情报 学 界 、 信 
息 学 界 . 社 会 学 界 等 领域 逐步 认识 和 重视 的 信息 对 象 与 获取 来 源 , 它 具有 原始 性 .原创 性 、 
新 颖 性 ,分 散 性 和 非 检索 标识 等 非 规范 特征 。 

(2) 一 次 信息 源 。 一 次 信息 源 又 称 原始 获得 信息 源 ,是 指 直接 将 理论 、 设 计 、 试 验 、 生 
产 、 研 究 等 信息 或 知识 成 果 经 过 整理 后 ,记录 在 正式 和 规范 物理 载体 上 的 信息 源 。 一 次 信 
息 源 的 载体 形式 丰富 ,也 称 原始 文献 信息 对 象 。 例 如 各 类 图 书 内 容 、 专 著 原 文 、 期 刊 论文 、 
研究 报告 .会议 论文 .专利 说 明 书 、 学 位 论文 .技术 标准 等 。 一 次 信息 源 反映 了 人 类 科学 、 
技术 、 社 会 .经 济 和 文化 发 展 的 直接 成 就 ,是 人 类 文明 和 财富 的 象征 , 它 具有 新 颖 性 、 创 造 
性 和 系统 性 等 特征 。 一 次 信息 源 是 信息 检索 与 获取 的 直接 对 象 和 主要 内 容 , 信 息 检索 的 
直接 目标 就 是 查找 所 需 的 一 次 信息 源 。 

(3) 二 次 信息 源 。 二 次 信息 源 指 应 用 科学 的 信息 处 理 技术 和 方法 ,将 分 散 无 序 的 一 
次 信息 源 ( 例 如 将 “ 汗 牛 充 栋 ”的 书籍 等 一 次 信息 源 处 理 为 “图 书目 录 检 索 库 ”) 内 容 进行 加 
工 、 整 理 ,使 之 成 为 检索 系统 中 有 序 的 结构 化 信息 。 二 次 信息 源 的 各 种 载体 集合 通常 称 为 
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信息 检索 工具 ,例如 文摘 、 书 目 、 索 引 、 指 南 、 搜 索引 擎 等 。 二 次 信息 源 具 有 浓缩 型 .汇集 性 
和 有 序 性 等 特点 , 它 是 查找 一 次 信息 源 的 工具 。 大 学 生 学 习 信息 检索 的 工具 与 方法 ,主要 
是 指 学 习 二 次 信息 源 的 检索 与 利用 。 

(4) 三 次 信息 源 。 三 次 信息 源 指 对 零 次 .一 次 和 二 次 信息 源 进 行 综合 分 析 并 处 理 加 
工 后 的 检索 对 象 。 三 次 信息 源 的 内 容 包括 述评 ,研究 综述 、 进 展 报告 .数据 手册 、 年 鉴 专 
业 词 典 等 。 

各 次 信息 源 之 间 的 关系 。 从 零 次 文献 一 次 文献 .二 次 文献 到 三 次 文献 ,是 一 个 由 分 
散 到 集中 ,由 无 序 到 有 序 ,由 博 而 精 地 对 知识 信息 进行 不 同 层次 的 加 工 过 程 。 它 们 所 含 信 
息 的 质 和 量 是 不 同 的 ,对 于 改善 人 们 的 知识 结构 所 起 到 的 作用 也 不 同 。 零 次 信息 源 是 形 
成 一 次 信息 源 的 原始 信息 素材 ,一 次 信息 源 是 形成 二 次 信息 源 和 三 次 信息 源 的 基础 ,没有 
一 次 信息 源 就 不 会 产生 二 次 信息 源 和 三 次 信息 源 。 利 用 二 次 信息 源 检 索 和 利用 一 次 信息 
源 ,也 可 以 进一步 形成 三 次 信息 源 ,二 次 信息 源 是 一 次 信息 源 的 浓缩 与 检索 应 用 工具 ,但 
三 次 信息 源 又 在 二 次 信息 源 中 得 到 反映 ,所 以 二 次 信息 源 既是 检索 一 次 信息 源 的 工具 ,又 
是 检索 三 次 信息 源 的 工具 。 信 息 源 加 工 层次 分 类 及 其 关系 如 图 4-1 所 示 。 


知识 重组 | | 指南 、 手 册 、 


年 鉴 、 书 目 等 一 | _ 
知识 产生 上 -~| 记录 上 -~| 原始 文献 | 
雪村 论文 一 一 | 琴 
| | 
知识 六 线 _[| 从 和 集 、 百 科 全 
蔬 守 
本 
让 i 

记录 等 | | 告 、 学 位 论 上 ~| 文献 整理 上 | 文摘、 新书 通 一 | 次 
文 等 报 等 献 

零 次 文献 | | 一 次 文献 

图 41 信息 源 加 工 层次 分 类 及 其 关系 图 


2. 信息 源 载体 的 物理 类 型 
信息 源 载体 随 着 人 类 社会 的 进步 而 不 断 发 展 ,其 形式 从 古代 的 甲骨 文 到 传统 的 纸 质 
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载体 ,直到 现代 的 电子 型 和 网 络 磁性 介质 载体 ,经 历 了 一 个 漫长 的 发 展 过 程 。 现 代 信息 载 
体 的 记录 和 存 取 技 术 已 经 飞速 发 展 ,使 信息 源 载 体形 式 进 入 了 一 个 魏 新 的 新 时 代 。 

(1) 印刷 型 。 印 刷 型 指 通过 油印 、 铅 印 、 胶 印 、 喷 墨 .激光 等 各 种 印刷 手段 将 信息 记录 
在 纸张 上 的 信息 检索 资源 ,这 是 沿用 了 近 千 年 的 传统 载体 形式 ,是 各 类 信息 源 载体 的 主体 
对 象 ,也 是 检索 与 利用 的 重要 主体 。 其 特点 是 使 用 方便 ,易于 阅读 ,但 需要 占用 大 量 空 间 ， 
不 便于 整理 和 保存 。 例 如 目前 高 校 图 书馆 和 社会 图 书馆 都 藏 有 海量 的 书籍 ,也 是 学 生 检 
索 、 获 取 与 学 习 利 用 的 主要 对 象 。 

(2) 缩微 型 。 缩 微型 指 通过 光学 技术 将 印刷 型 信息 和 图 像 拍摄 或 复制 在 透明 或 不 透 
明 的 感光 材料 载体 上 的 文献 。 它 又 可 分 为 缩微 胶卷 和 缩微 平 片 。 其 优点 是 体积 小 ,易于 
保存 ,存储 密度 高 ,例如 每 张 105X148mm? 的 平 片 可 容纳 3200 页 的 图 书 内 容 。 其 缺点 是 
阅读 不 便 , 并 需要 专门 的 阅读 设备 和 环境 。 目 前 这 类 信息 源 基本 被 淘汰 ,除了 收藏 与 研究 
价值 外 不 具有 用 户 的 普遍 检索 与 利用 特性 。 

(3) 声 像 型 。 声 像 型 又 称 直 感 型 或 试听 型 信息 源 , 指 通过 专用 设备 ,使 用 声 、. 光 、 磁 、 
电 等 技术 将 信息 以 声音 .图像 .影视 和 动画 等 形式 表现 出 来 ,具有 直观 形象 的 优点 。 它 在 
帮助 人 们 观察 罕见 的 自然 现象 .探索 物质 的 微观 结构 或 者 辅助 用 户 专业 性 知识 学 习 等 方 
面 , 能 起 到 印刷 型 信息 源 不 能 具备 的 独特 作用 ,其 缺点 是 需要 借助 录放 机 、 计 算 机 .DVD 
机 、 音 箱 和 显示 器 等 设备 才能 检索 和 利用 声 像 型 信息 资源 。 

(4) 磁 介 质 型 。 磁 介质 型 常常 称 为 计算 机 型 数字 化 信息 资源 , 指 通过 编码 、 指 令 操 
作 , 程 序 设 计 与 编程 .数据 库存 储 与 管理 .磁盘 服务 (包括 分 布 式 网 络 云 盘 ) 等 技术 融合 , 
信息 转换 成 计算 机 终端 机 或 服务 器 能 够 独立 使 用 的 数据 ,也 可 网 络 化 大 规模 检索 与 共享 
的 数字 化 的 磁 介 质 型 信息 资源 。 这 是 信息 社会 的 信息 存 取 主 要 手段 与 方法 , 它 具 有 存储 
容量 大 、 存 取 速 度 快 .传播 广泛 ,以 及 原 记 录 可 以 及 时 修改 、 删 除 或 更 新 等 特点 。 


4.2 信息 源 的 出 版 发 行 与 共享 类 型 


信息 源 的 出 版 发 行 与 共享 类 型 ,是 依据 信息 源 载体 内 容 的 性 质 \ 作 用 、 出 版 发 行 方 式 、 
检索 、 利 用 与 共享 特点 来 对 信息 源 进行 辨认 识别、 检索 与 利用 ,目的 是 让 大 学 生 认 识 这 些 
信息 源 类 型 的 不 同 作 用 ,以 提高 信息 检索 与 利用 的 针对 性 与 目的 性 。 

(1) 图 书 。 这 是 一 种 论 章 成 肌 的 出 版 物 ,是 对 已 有 研究 成 果 、 生 产 技术 、 实 践 经 验 或 
某 一 知识 体系 的 论述 或 概括 。 它 的 基本 素材 来 自 期 刊 论文 .会 议论 文 .研究 报告 学 位 论 
文 等 一 次 信息 源 和 著者 本 人 的 研究 和 学 术 成 果 。 由 于 经 过 著者 或 编者 的 选择 、 核 对 、 鉴 
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别 .提炼 和 加 工 , 因 而 内 容 比 较 成 熟 、 全 面 和 系统 ,是 传播 知识 .教育 和 培养 人 才 的 重要 工 
具 。 图 书 的 出 版 周期 较 长 ,报道 速度 较 其 他 信息 源 要 慢 。 

图 书 按 其 内 容 性 质 和 作用 可 分 为 : 普及 读物 ; @ 教 科 书 ; @@ 从 书 ; @ 专 著 ; @ 论 文 
集 ; @ 参 考 工 具 书 ,如 书目 索引, 字典、 词典、 手册 ,年 鉴 、 指 南 和 百科 全 书 等 。 

(2) 期 刊 。 期 刊 又 称 杂 志 , 这 是 一 种 有 固定 名 称 , 有 一 定 出 版 规律 ,每 期 由 多 篇 论文 
组 成 的 连续 出 版 物 。 其 特点 是 出 版 周期 短 , 报 道 速度 快 , 数 量 大 ,内 容 丰 富 新 颖 ,原创 性 
高 ,能 及 时 反映 当代 社会 和 科技 的 发 展 水 平和 动向 , 它 所 刊载 的 科学 事实 ` 数 据 、 理 论 、 技 
术 方法 、 构 思 和 猜想 ,都 是 专门 学 习 、 科 学 研究 的 重要 参考 信息 。 因 此 ,大 学 生 和 研究 人 
员 一 般 都 要 经 常 查阅 期 刊 论文 ,借以 了 解 动态 ,掌握 进展 ,开阔 思路 ,吸取 他 人 的 经 验 或 思 
路 ,以 改进 或 提高 自身 学 习 和 工作 效率 。 

期 刊 按 其 报道 内 容 性 质 , 可 分 为 科普 性 期 刊 . 技 术 性 期 刊 .学 术 性 期 刊 , 信 息 性 期 刊 、 
检索 性 期 刊 和 数据 性 期 刊 等 种 类 。 

(3) 报纸 。 报 纸 (newspaper) 是 以 刊载 新 闻 和 时 事 评论 为 主 的 定期 向 公众 发 行 的 印 
刷 出 版 物 。 这 是 出 版 周期 最 短 ,发 行 量 最 多 的 一 种 出 版 物 ,一 般 可 分 为 综合 类 报纸 和 专业 
类 报纸 ,前 者 报道 内 容 极为 广泛 ,涉及 政治 .经济 .军事 .科技 ,文化 艺术 .生活 等 方面 ,一 般 
以 消息 性 信息 居多 ,后 者 侧重 报道 某 一 方面 内 容 的 消息 性 信息 和 知识 性 信息 。 报 纸 是 大 
众 传播 的 重要 载体 ,具有 反映 和 引导 社会 与 论 的 功能 。 报 纸 通常 为 散 页 印刷 ,不 装订 、 没 
有 封面 ,但 有 固定 名 称 ,面向 公众 定期 ,连续 发 行 。 现 代 报纸 每 日 出 版 一 次 , 称 为 日 刊 ;或 
者 每 周 出 版 一 次 , 称 为 周报 。 

报纸 的 优点 是 : 可 随时 阅读 ,不 受 时 间 限 制 ; 互 相传 阅 , 读 者 人 数 可 以 是 印刷 数 的 几 
倍 ; 即 使 阅读 或 理解 能 力 较 低 的 人 , 亦 可 相应 吸收 报章 的 信息 ;由 于 互联 网 的 崛起 ,网 上 版 
报纸 比 传统 印刷 版 的 信息 量 要 大 得 多 、 传 播 速度 要 快 得 多 .受众 也 更 加 广泛 ,同时 传统 报 
业 公 司 都 纷纷 建立 了 自己 的 在 线 报纸 门户 网 站 。 

(4) 会 议 文献 。 会 议 文献 是 指 在 各 种 综合 性 .行业 性 或 专业 性 会 议 上 发 表 的 论文 和 
报告 。 此 类 信息 的 学 术 性 和 专业 性 都 较 强 ,信息 的 专业 性 价值 较 高 。 往 往 反 映 了 当前 的 
学 科 进 展 或 行业 发 展 动 态 ,是 获取 最 新 信息 的 重要 来 源 。 

会 议 文献 按 其 出 版 形式 又 可 分 为 : 四 连续 出 版 物 ,以 定期 或 不 定期 的 形式 连续 出 版 ， 
一 般 以 会 议 录 居多 ; @ 图 书 类 ,以 会 议 名称 作 为 书 名 或 男 加 专门 书 名 , 按 图 书 出 版 发 行 ， 
一 般 以 会 议论 文集 居多 ; 图 期 刊 类 ,将 会 议论 文 刊载 在 某 一 期 的 期 刊 上 ,以 专刊 或 增刊 的 
形式 出 版 发 行 。 了 解 和 掌握 各 种 会 议论 文 的 不 同 出 版 形式 和 收藏 特点 ,对 于 索取 “原始 信 
息 全 文 ? 具 有 实用 意义 。 
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(5) 科技 报告 。 科 技 报告 是 科技 人 员 或 科技 研究 机 构 从 事 某 一 专题 研究 所 取得 的 成 
果 和 进展 的 实际 记录 。 其 特点 是 反映 新 技术 、 新 学 科 和 新 知识 ,报道 信息 速度 较 快 ,内 容 
比较 专 深 、 新 颖 ,数据 比较 可 靠 ,保密 性 较 强 ,有 相当 一 部 分 科技 报告 资料 不 公开 发 行 。 科 
技 报告 每 份 单独 成 肌 , 有 专门 编号 ,用 以 识别 报告 类 型 及 其 主持 机 构 。 

(6) 专利 文献 。 专 利信 息 是 与 专利 制度 有 关 的 所 有 专利 文件 与 技术 资料 的 总 称 , 包 
括 专利 说 明 书 、 专 利 公 报 、 专 利 分 类 表 、 专 利 检索 工具 以 及 专利 的 法 律 文件 。 其 中 主体 是 
专利 说 明 书 , 它 具 有 统一 编号 .数量 大 、 内 容 丰 富 、 实 用 、 可 靠 , 新 颖 、 原 创 以 及 报道 迅速 等 
特点 。 专 利信 息 总 体 上 分 为 四 类 : 专利 规范 信息 、 发 明 专利 信息 、 外 观 设计 专利 信息 和 实 
用 新 型 专利 信息 。 在 信息 的 价值 与 使 用 价值 方面 ,专利 中 的 发 明 专 利信 息 最 高 。 

(7) 学 位 论文 。 学 位 论文 是 指 高 等 院 校 或 研究 机 构 的 毕业 生 和 研究 生 为 取得 各 级 学 
位 而 撰写 的 学 术 论文 , 它 按 级 别 可 分 为 学 士 学 位 论文 、 硕 士 学 位 论文 和 博士 学 位 论文 。 其 
中 研究 生 论文 (尤其 是 博士 学 位 论文 ) 带 有 一 定 的 创造 性 ,所 论 及 的 内 容 一 般 比 较 专 深 , 对 
科研 、 生 产 和 教学 有 较 大 的 参考 价值 。 作 为 大 学 生 , 不 仅 要 充分 了 解 、 查 询 和 利用 学 位 论 
文 资源 ,而 且 也 是 学 位 论文 的 直接 生产 者 。 

(8) 技术 标准 。 技 术 标 准 是 指 描述 有 关 产 品 和 工程 质量 、 规 格 、 工 艺 流程 及 其 测试 方 
法 等 的 技术 文件 。 技 术 标 准 是 一 种 经 权威 机 构 批准 的 规章 性 信息 资源 ,具有 一 定 的 法 律 
约束 力 。 按 其 约束 力 可 分 为 法 定 标准 、 推 荐 标准 和 试行 标准 ; 按 其 执行 范围 可 分 为 国际 标 
准 、 区 域 标准 、 国 家 标准 、 专 业 标 准 和 企业 标准 等 ; 按 其 内 容 可 分 为 基础 标准 (包括 术语 、 符 
号 ,单位 .定义 等 )、 产 品 特性 标准 (包括 特性 、 尺 寸 . 形 状 、 成 分 质量 等 ) 以 及 方法 标准 ( 包 
括 生 产 方法 、 作 业 方 法 .试验 及 检测 方法 等 ) 。 

(9) 政府 出 版 物 。 政 府 用 以 发 布 政令 和 体现 其 思想 意志、 行为 的 物质 载体 ,同时 也 
是 政府 的 思想 .意志 、 行 为 产生 社会 效应 的 主要 传播 媒介 。 政 府 出 版 物 是 指 各 国政 府 及 其 
所 属 分 支 机 构 所 发 表 的 各 类 公务 性 ,政策 性 等 行政 类 文件 和 科技 型 文件 。 政 府 出 版 物 数 
量 巨大 ,内 容 广泛 ,出 版 迅速 ,资料 可 靠 , 是 重要 的 信息 源 。 

(10) 产品 样本 资料 和 说 明 书 。 产 品 样本 资料 是 指 厂商 或 贸易 机 构 为 宣传 和 推销 其 
产品 而 印发 的 免费 赠 给 消费 者 的 资料 。 如 产品 目录 、 产 品 样本 、 产 品 说 明 书 、 产 品 总 览 、 产 
品 手册 等 。 它 们 大 多 是 对 定型 产品 的 性 能 、 构 造 原 理 、 用 途 、 使 用 方法 、 操 作 规程 .产品 规 
格 等 所 做 的 具体 说 明 。 产 品 样本 资料 图 文 并 茂 ,形象 直 观 , 所 反映 的 技术 较为 成 熟 ,数据 
较为 可 靠 , 对 技术 革新 、 选 型 .设计 ,试制 新 产品 以 及 引进 设备 等 均 有 一 定 的 参考 价值 。 产 
品 样本 资料 随 着 产品 的 更 新 换代 而 更 新 ,而 且 有 一 部 分 产品 是 试销 或 试验 性 产品 ,在 查询 
与 利用 该 类 信息 时 应 予以 注意 。 
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(11) 技术 档案 。 它 是 在 生产 建设 过 程 和 技术 研发 活动 中 形成 的 具体 工程 对 象 的 技 
术 文件 .图 样 图表、 照片 .原始 记录 或 其 复制 品 。 其 内 容 包 括 任务 书 、 审 批文 件 、 研 究 计 
划 、 技 术 指标 、 技 术 措施 .调查 材 料 .设计 计算 .工艺 记录 、 研 究 结论 等 信息 。 它 是 科研 和 生 
产 建设 中 积累 经 验 、 提 高 质量 的 重要 依据 。 此 类 信息 资源 具有 明显 的 保密 性 和 内 部 控制 
使 用 的 特点 。 

以 上 所 述 的 11 种 出 版 类 型 中 ,图 书 、 期 刊 、 会 议 文献 .科技 报告 ,专利 文献 .学 位 论文 
和 技术 标准 均 有 其 相应 的 二 次 信息 源 , 即 检索 工具 。 所 以 查找 起 来 比较 方便 ,而 政府 出 版 
物 、 产 品 样品 和 说 明 书 、 技 术 档 案 、 报 纸 则 多 数 没有 相应 的 二 次 文献 ,所 以 查找 极为 不 便 。 

近年 来 ,有 关 部 门 对 政府 报告 .技术 档案 、 重 要 报纸 等 组 织 专门 人 员 制 作 相应 的 二 次 
文献 ,解决 了 检索 与 获取 不 便 的 问题 。 


4.3 ”信息 源 类 型 的 辨别 


信息 检索 的 目的 就 是 从 “信息 海洋 ”中 查找 出 不 同类 型 的 信息 ,以 满足 不 同 的 信息 需 
要 。 为 此 ,首先 必须 鉴别 信息 源 的 不 同类 型 ,以 便 按 此 获取 相应 的 原始 信息 全 文 。 当 我 们 
检索 多 种 类 型 的 检索 刊物 或 者 利用 各 类 论文 后 所 附录 的 参考 文献 来 扩大 检索 线索 与 范围 
时 ,都 会 遇 到 识别 信息 源 类 型 的 问题 。 各 种 检索 工具 (或 检索 数据 库 ) 所 汇聚 的 各 类 信息 ， 
由 于 普遍 采用 规范 化 的 著录 格式 ,有 明显 的 文献 类 型 标识 ,所 以 识别 时 并 不 困难 。 但 科技 
专著 、 技 术 报 告 和 各 类 论文 后 所 附录 的 参考 信息 源 , 除 中 文 期 刊 的 参考 文献 目前 已 统一 采 
用 标准 著录 格式 而 不 难 识别 外 ,尤其 是 外 文 出 版 物 所 附录 的 参考 信息 源 的 著录 格式 没有 
统一 的 标准 ,特别 是 文献 的 出 处 项 ,其 正 斜 体 、 大 小 写 、 简 称 (缩写 ) 等 项 目 因 国 . 因 人 、 因 出 
版 物 而 异 , 甚 至 五 花 八 门 ,加 之 有 些 参考 文献 的 著录 项 目 不 全 ,没有 明显 的 信息 源 类 型 标 
识 , 所 以 增加 了 识别 的 难度 。 因 此 ,学 习 和 掌握 识别 信息 源 类 型 的 一 些 基本 原则 和 方法 具 
有 一 定 的 实用 意义 。 

1. 图 书 

图 书 除了 著 ( 编 ) 者 和 书 名 之 外 ,识别 其 信息 源 类 型 的 明显 标识 是 出 版 单位 名 称 、 出 版 
地 及 出 版 时 间 。 

【 例 4-1】 C. Koelbel,D. Loveman,R. Schreiber,G. Steele,Jr. ,and M. Zosel?, The 
High Performance Fortran Handbook®. Cambridge,MAS : MIT Press® ,1994®. 

【 例 4-2】 C. P. Wong, J. M. Segelken, and C. N. Robinson®, “Chip on board 
encapsulation ,”2 In Chip on Board Technologies for Multichip Modules2 ,J. H. Lau?, 
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Ed. ,Yew York@ : Van Nostran Reinhold® ,1994® ,pp. 470-503®. 

例 中 ,@ 图 书 著 ( 编 ) 者 ; @ 书 名 (一 般 用 斜体 ); 图 出 版 地 ; @ 出 版 社 名 称 ; @ 出 版 时 
间 ; @ 著 者 ; 论文 题名 ; @ 起 止 页 码 。 

上 述 两 例 中 , 例 4-1 较 易 识别 , 因 它 有 较 明 显 的 出 版 社 标识 “MIT Press”(Press 即 出 
版 社 ) 。 例 4-2 不 但 要 识别 出 出 版 社 名 称 (Van Nostran Reinhold) ,而 且 还 应 识别 出 书 名 、 
编者 和 论文 著者 。 这 是 一 本 以 图 书 形式 出 版 的 专题 论文 集 ,如 果 将 编者 和 书 名 误 认为 论 
文 著者 和 论文 题名 ,那么 在 馆藏 书目 数据 库 中 就 无 法 检索 到 该 书 。 此 外 ,有 些 从 书 编 有 卷 
号 或 期 号 ,不 能 与 期 刊 信息 相 混 淆 。 

2. 期 刊 论文 

期 刊 论文 的 出 处 项 一 般 包 括 刊 名 、 卷 期、 页 码 及 出 版 时 间 。 其 明显 的 标识 是 有 卷 、 期 
号 和 起 止 页 码 。 

【 例 4-3〗】 D. E. Everitt and N. W. Macfadyen® ,Analysis of mullicellular mobile 
radio Lelephone systems wilh loss,”® Br. Telecom Tech. J.®, Vol. 1,no. 29,pp. 37- 
45® ,1993@ . 

【 例 4-4】〗】 Y. Yang, G. M. Masson?, Broadcast ring sandwich networks®, IEEE 
Transactions on Computers® 44(10)® (1995)®1169-1180®. 

例 中 ,论文 著者 ; 四 论文 题名 ; @ 刊 名 (外 文 刊 名 有 时 为 斜体 ); @ 卷 .期 号 ; @ 起 止 
页 码 ; @ 出 版 日 期 。 

上 述 例子 的 刊 名 、 卷 期 号 均 有 明显 的 标识 ,不 难 识别 。 例 4-4 的 刊 名 、 卷 期 号 、 出 版 日 
期 和 起 止 页 码 采用 与 例 4-3 不 同 的 著录 方式 ,识别 时 应 注意 判断 。 

3. 会 议论 文 

会 议 信息 源 的 出 处 项 包括 会 议 或 会 议 录 名 称 、 出 版 时 间 和 页 码 , 有 的 还 有 会 议 地 址 或 
主办 单位 。 其 特点 是 有 反映 会 议 信息 的 明显 标识 ,如 Proceedings、Symposium、Meeting、 
Workshop .Colloquium Convention 等 。 

【 例 4-$S】 Soumyanath and J. Von ArxQ “An anolog parallel processor for the 
dynamic programming paradiam”® , Fifth Ann. IEEE Int. ASIC Conf. Exzhibii®, 
Rochester NY® ,1992® ,pp. 557-560®. 

【 例 4-6】 R. Mendis, M.T. Bishop,and J. F. Witte? “Investigations of voltage 
flicker in electric arc furnance power systems”® ,Proc. IEEETAS Annu. Meeting®, 
1994® ,vol. 32 , pp. 2317-2325®. 

例 中 ,中 论文 著者 ; @ 论 文 题名 ; 图 会 议 名 称 或 会 议 录 名 称 ( 外 文 刊 名 多 数 用 缩写 斜 
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体 表示 ); @ 会 议 地 址 ; @ 会 议 时 间或 会 议 录 出 版 时 间 ; @ 起 止 页 码 ; 会 议 录 卷 号 。 

上 述 两 例 的 著录 方式 略 有 不 同 , 其 中 例 4-5 中 国明 确 给 出 了 会 议 名 称 及 开会 地 址 , 例 
4-6 中 国 则 为 会 议 录 名 称 (Proc. 是 Proceedings 的 简写 , 即 会 议 录 的 意思 ) 并 有 卷 号 ,识别 
时 勿 误 认 为 期 刊 论文 。 

4. 技术 报告 

技术 报告 的 明显 标识 是 其 信息 源 出 处 项 标 有 “Report”, 并 列 出 相应 的 报告 号 ,有 时 还 
有 合同 号 (Contract)\ 人 藏 号 (Accession) 及 出 版 机 构 等 。 

【 例 4-7】〗】 Butler,R and Lusk,E?,User’s Guide to the p4 parallel programming 
system@ ,Technical Report ANL-92/179 , Argonne National Laboratory USA® (October 
1992)9 . 

【 例 4-8〗 “Computer assisted drawing information capture”®, Report NP-7179- 
CCMLG) ,Vol. 19 , Electric Power Research Institute, Palo Alto,CA® ,Jan. 1991®., 

例 中 ,四 著者 ; @@ 报 告 题名 ; 回报 告 号 ; @ 机 构 名 称 及 所 在 地 ; 回报 告发 表 日 期 ; 
@ 报 告 卷 号 及 此 篇 报告 分 若干 卷 , 绝 大 多 数 报告 无 此 标识 。 

5. 专利 

识别 专利 信息 源 的 主要 依据 是 其 出 处 项 有 专利 (Patent) 国 别 代号 和 专利 号 ,有 时 还 
列 出 申请 号 (Application ) 。 

【 例 4-9】 T. A. D. Riley?, “Frequency syntheszers”@ ,U. S. Patent 49655319 ， 
Oct. 1990®. 

例 中 ,四 专利 权 人 ; 加 专利 说 明 书 题名 ; 加 专利 国 别 代号 及 专利 号 ; @ 专 利 批准 
日 期 。 

6. 学 位 论文 

学 位 论文 的 主要 特点 是 其 信息 出 处 项 一 般 有 Ph. D. thesis, Ph. D. dissertation , 
Master’s thesis, M. S. thesis 等 标识 ,thesis 为 学 位 研究 论文 ,Ph. D. 则 明显 表示 具体 
学 位 。 

【 例 4-10】 G. T .Byrd?. “Communication mechanisms in distributed shared memory 
multi-processors”® , Ph. D. dissertation® ,Stanford Univ. ,Stanford,CA® ,Aug. 1998®. 

【 例 4-11】 H. Hauson?.,“Connection management functions of a private wireless 
ATM network”® ,Master’s thesis@ , Helsink Univ. Technology® .Mar.13.,1996®. 

例 中 ,@ 著 者 ; @ 论 文 题名 ; 加 论文 类 型 ; @ 著 者 所 在 单位 及 地 址 ; @ 论 文 发 表 日 期 。 
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7. 技术 标准 

技术 标准 的 识别 主要 依据 是 其 出 处 项 一 般 均 有 Standard(Std) ,Specification 以 及 标 
准 颁 发 单位 及 标准 代号 ,如 ISO, NBS,ANSI,CCITT,GB 等 。 

【 例 4-12】 IEEE Guide for Harmonic Control and Reactive Compensation of State 
Power Conventers ,IEEE Std. ®19® ,1981(updated 1989)9 . 

【 例 4-13】 MPEG Requirements Group@ ,“MPEG-4 requirements document 
V.4"@ ,ISO/IEC JTCI/SC29/WG11 N1727® ,July 199798. 

例 中 ,中 标准 名 称 ; @ 标 准 制订 机 构 代 号 及 其 标准 号 ; 加 标准 公布 日 期 ( 例 12 中 括号 
内 为 修改 日 期 ); 由 标准 机 构 下 属 专业 组 。 

8. 其 他 文献 

除 以 上 七 种 主要 外 文 信息 源 识别 外 ,在 参考 文献 中 还 经 常 出 现 其 他 各 种 类 型 的 信息 
源 ,如 数据 手册 、 技 术 说 明 书 、 内 部 文件 .私人 信函 等 ,有 的 参考 信息 源 识别 十 分 困难 ,我 们 
应 根据 文献 题名 及 出 处 的 某 些 特征 进行 仔细 分 析 和 判断 。 

【 例 4-14】 MCNC? Open Architecture Silicon Implementation Software User’s 
Manual® ,Microelectronics Corporation of North Carolina, USA® (1990)®. 

【 例 4-15】 Private email Correspondance® , T. G. Mattson® of Intel Supercomputer 
Division, USA®? (email address: tgm @ SSD. Intel. Com-)® (1994)®. 

例 中 ,中 机 构 缩写 名 ; @ 文 献 题名 ; 加 机 构 全 称 及 所 在 国名 ; @ 出 版 (信息 生成 ) 日 
期 ; @ 文 献 类 型 ,这 是 一 篇 私人 E-mail 通信 ; @ 发 信者 ; @ 发 信者 所 在 机 构 及 国 别 ; 
@E-mail 地 址 。 


4.4 检索 工具 


4.4.1 检索 工具 的 基本 功能 

信息 检索 工具 是 以 压缩 形式 存储 、 报 道 和 查找 信息 线索 或 原始 信息 全 文 的 工具 , 它 是 
经 过 对 信息 进行 搜索 整理 ,特征 分 析 和 组 织 加 工 后 的 产物 ,同时 又 是 信息 检索 的 主要 手段 
和 条 件 。 它 包括 传统 的 检索 工具 ,例如 科学 引文 索引 SCI; 也 包括 网 络 检索 工具 例如 
Baidu 等 。 信 息 检索 工具 的 主要 功能 表现 在 存储 和 检索 两 个 方面 。 一 方面 将 信息 的 外 部 
特征 和 内 容 特 征 著录 成 多 个 可 用 的 信息 线索 ,并 按照 科学 的 体系 和 检索 方法 将 信息 检索 
项 有 序 地 组 织 起 来 , 即 信息 特征 的 存储 过 程 , 这 就 是 设计 和 编制 检索 工具 的 过 程 。 另 一 方 
面 ,检索 工具 提供 多 种 检索 手段 ,使 人 们 能 够 按照 一 定 的 检索 方法 和 途径 获得 所 需 信息 的 
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线索 或 原始 信息 全 文 , 即 检索 过 程 ,也 就 是 利用 检索 工具 获得 所 需 信息 的 过 程 。 信 息 在 检 

索 工具 中 的 存储 与 检索 过 程 简 图 如 图 4-2 所 示 。 
信息 存储 与 组 织 。 | 信息 检索 实施 

结果 输出 


检索 结果 


特征 组 配 
需求 特征 
检索 需求 


信息 处 理 者 


外 部 信息 的 
信息 检索 者 


图 4-2 信息 在 检索 工具 中 的 存储 与 检索 过 程 简 图 


信息 报道 及 时 ,全面 ,存储 规范 、 有 序 以 及 检索 迅速 和 准确 是 对 检索 工具 的 基本 要 求 ， 
因此 信息 检索 工具 包含 下 列 基 本 功能 。 

(1) 报道 功能 。 检 索 工 具 以 压缩 的 形式 简明 地 揭示 了 信息 的 外 部 特征 (例如 书 名 、 刊 
名 、 著 者 .号 码 、 网 页 标题 或 网 页 链接 地 址 等 ) 和 内 容 特征 (例如 标题 .主题 摘要、 分 类 、 关 
键 词 等 ) , 供 信息 用 户 按照 这 些 报道 线索 查找 所 需 的 原始 信息 。 

(2) 标识 功能 。 检 索 工 具 将 所 选择 收录 和 分 析 整 理 后 的 信息 按照 一 定 的 科学 体系 组 
织 成 一 个 有 机 的 整体 ,同时 进行 多 种 检索 标识 (例如 序号 .代码 号 .主题 词 .关键 词 `, 学 科 类 
目 等 标识 ) 。 多 种 检索 标识 是 系统 (包括 手工 检索 系统 和 计算 机 检索 系统 ) 标 引 人 员 和 信 
息 用 户 所 共同 遵循 并 进行 彼此 沟通 的 ,这 些 “ 共 同 语言 ”标识 也 是 提高 检索 工具 的 存储 质 
量 和 检索 与 利用 效率 的 重要 基础 。 

(3) 辅助 检索 功能 。 为 使 信息 用 户 能 通过 多 种 检索 方法 和 途径 获取 信息 ,检索 工具 
必须 提供 多 种 辅助 检索 手段 ,例如 分 类 索引 、 主 题 索 引 、 代 码 索引 和 著者 索引 以 及 机 构 索 
引 等 。 辅 助 检索 功能 的 完善 程度 不 仅 是 检索 工具 的 主要 质量 指标 ,而 且 也 是 影响 信息 用 
户 能 否 充分 实现 信息 资源 共享 的 一 个 关键 因素 。 在 电子 信息 数据 库 或 网 络 搜索 引擎 中 ， 
辅助 检索 功能 十 分 强大 ,例如 从 时 间 、 类 型 .学 科 范 围 . 用 户 点 击 量 等 方面 进行 信息 约束 或 
限定 ,就 起 到 了 很 好 的 辅助 作用 。 
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4.4.2 检索 工具 的 类 型 

由 于 信息 检索 工具 的 著录 性 质 、 报 道 范 围 载体 形式 和 检索 手段 等 特征 的 不 同 ,检索 
工具 有 多 种 划分 方法 ,通常 按 著录 信息 的 特征 进行 分 类 。 

1. 目录 (content) 

以 某 一 高 校 的 图 书馆 图 书目 录 数 据 库 检 索 界面 为 例 ( 如 图 4-3 所 示 ), 在 图 书目 录 实 
例 中 , 左 侧 的 分 类 目录 工具 十 分 明显 。 通 过 目录 工具 (一 级 目录 、 二 级 目录 或 多 级 目录 工 
具 ), 可 以 快速 定位 用 户 信息 需求 的 范围 ,引导 用 户 渐进 式 \ 深 入 细 化 并 准确 查询 目标 信息 
内 容 。 


首页 | 图 书 排行 | 图 书 推荐 | 反 访 需 求 | 软件 下 载 | 使 用 帮助 
! aes | 高 级 检 索 
[By 全 部 图 书 分 类 目录 
未 辑 。 ”检索 项 。 检索 启 
国 经 典 理论 
加 哲学 、 宗 教 E 二 UL | 
占 政治 法 律 并 且 国 | 3 sl 
国 社会 科学 总 论 [开国 | 二 ga | | 检索 | | 重 填 
里 数理 科学 和 化 学 出 版 年 代 从 [ 语 过 笃 。” 国 | 到 [ 语 先 选 笃 开 始 年 人 国 | 
ee 排序 [本 质 日 两 恒 | | 降序 国 | 每 矶 明示 [10 国 | 条 记录 
加 经 济 
加 医药 . 卫生 
国 文化 、 科 学， 教育 、 体 
育 
加 语言 、 文字 站 电子 资源 使 用 说 明 
站 二 本 过 中 文 电子 图 书 资源 ， 宗 书 量 通 莽 文学 ， 经 济 、 计 算 机 、 工 业 等 多 个 大 类 。 只 项 几 分 名 的 时 
间 您 可 以 阅读 到 | 一 个 超大 电子 图 节 ， 极 大 地 丰富 您 的 知识 获 职 。 阅 读 图 书 请 先 下 载 安装 超星 阅览 
日 芭 器 4.0 版 本 超星 阅览 器 4.0 版 本 详细 使 用 说 明 ) ,点 击 左 侧 图 书 分 类 目录 或 在 上 方 图 书 检索 中 输入 检 
加 自然 科学 总 论 索 忆 查找 所 需 图 书 ， 单 击 书 名 链接 即 可 阅读 图 蔬 。 ( 本 站 资源 仅 限 图 书馆 内 部 使 用 ， 为 学 习 、 教 学 
国 天 文学 、 地 球 科学 研究 服务 ) 
国 综合 性 图 书 
国 环境 科学 、 安 全 科学 使 用 步 要。 1 下 载 安 技 超星 阅览 器 4 0 -> 2 查找 阅读 图 书 
回 航空 、 航 天 
回 交通 运输 
国 工业 技术 何 图 书 癌 读 周 排行 =， 读书 软件 下 载 
sa 辣 坟 本 忆 图 书 pda) 需要 下 载 并 安装 专用 癌 读 


图 4-3 某 图 书馆 图 书目 录 数 据 库 检索 界面 实例 图 


目录 就 是 依据 信息 的 外 部 特征 为 著录 依据 ,记录 具体 信息 生成 或 出 版 事项 及 其 信息 
收藏 的 报道 性 工具 ,目的 在 于 信息 或 知识 的 定向 查找 和 集成 发 现 。 按 组 织 形 式 可 划分 为 
国家 书目 、 联 合 目录 、 馆 藏 目 录 、 报 刊 目录 、 联 机 性 和 网 络 性 目录 库 等 多 种 类 型 。 按 信息 组 
织 和 报道 范围 可 将 目录 划分 为 专题 性 目录 (例如 图 书目 录 、 期 刊 目 录 等 ) 和 综合 性 目录 ( 例 
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如 跨 库 联合 目录 )。 

2. 索引 (index) 

索引 是 对 数据 库 表 中 一 列 或 多 列 的 值 进行 排序 的 一 种 结构 。 使 用 索引 可 快速 访问 
数据 库 表 中 的 特定 信息 。 在 数据 库 中 ,索引 是 一 种 与 表 有 关 的 数据 库 结 构 , 它 可 以 使 对 
应 于 表 的 结构 化 查询 语句 执行 得 更 快 。 索 引 的 作用 相当 于 图 书 的 目录 ,可 以 根据 目录 
中 的 页 码 快速 找到 所 需 的 内 容 。 当 表 中 有 大 量 记 录 时 , 若 要 对 表 进 行 查询 ,第 一 种 搜索 
信息 方式 是 全 表 搜 索 ,就 是 将 所 有 记录 一 一 取出 ,并 与 查询 条 件 进行 一 一 对 比 ,然后 返 
回 满足 条 件 的 信息 记录 ,这 样 做 会 消耗 大 量 数据 库 系统 运行 时 间 ,并 造成 大 量 磁盘 输入 
与 输出 操作 ;第 二 种 就 是 在 表 中 建立 索引 ,然后 在 索引 中 找到 符合 查询 条 件 的 索引 值 ， 
最 后 通过 保存 在 索引 中 的 地 址 快速 找到 表 中 对 应 的 记录 。 索 引 的 快速 构建 结构 如 
图 4-4 所 示 。 


(IndexPage Data Page 100 
Aardvark 101.2 Goat 
Ant 100.2 2 Ant 
Bee 102.3 [3|1[ Donkey | 
Index Page Data Page 101 
Aardvark Cat 101.1 1 Cat 
Cat Dog 102.1 [2 Aardvark 
Donkey 100.3 末 Zebra 
Index Page Data Page 102 
Goat 100.1 | Dog 
Horse 102.2 2 Horse 
Zebra 101.3 3 Bee 


图 4-4 索引 的 快速 构建 结构 示意 图 


索引 工具 就 是 将 信息 的 一 些 外 部 特征 或 内 部 特征 (例如 题名 著者 .主题 .分 类 等 ) 作 
为 著录 依据 ,并 依 此 线索 并 引导 出 所 需 原始 信息 内 容 的 检索 工具 。 索 引 与 目录 的 区 别 在 
于 它 不 仅 能 揭示 信息 的 外 部 特征 ,而 且 也 能 揭示 信息 的 内 部 特征 ,例如 主题 索引 、 分 类 索 
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引 、 关 键 词 索引 等 。 索 引 既 可 单独 出 版 ,也 可 以 附录 形式 出 版 ,或 者 开发 为 网 络 数 据 库 。 
大 型 的 索引 工具 有 “科学 引文 索引 ”(SCD .工程 索引 (ED .世界 专利 索引 (WPI) 等 。 

3. 文摘 (abstract) 

文摘 在 著录 信息 外 部 特征 的 基础 上 ,还 增加 有 揭示 内 容 特征 的 摘要 部 分 , 它 是 系统 地 
报道 积累 和 检索 信息 的 主要 工具 ,是 最 核心 的 检索 工具 。 文 摘 型 检索 工具 是 将 大 量 分 散 
的 信息 全 文 , 选 择 全 文中 重要 的 部 分 ,以 简练 的 形式 组 织 为 摘要 ,并 按 一 定 的 方法 组 织 排 
列 起 来 的 检索 工具 。 在 实践 上 ,不 仅 传统 的 文摘 检索 工具 有 揭示 信息 内 容 的 摘要 内 容 , 而 
且 目 前 网 络 搜索 引擎 和 大 多 数 网 络 数据 库 都 应 用 了 揭示 信息 内 容 的 摘要 形式 。 依 据 文摘 
揭示 信息 内 容 的 深度 , 它 可 分 为 指示 性 文摘 和 报道 性 文摘 。 指 示人 性 文摘 : 就 是 用 简洁 的 
语言 简单 说 明 信 息 的 主题 内 容 , 以 对 文献 题名 做 简要 补充 。 报 道 性 文摘 : 就 是 简要 描述 
信息 的 主题 内 容 , 大 多 描述 得 较 全 面 ,一 般 包 括 主要 内 容 \、 论 点 、 结 论 、 数 据 和 图 表 等 方面 
的 内 容 。 以 某 一 高 校 的 图 书馆 图 书 摘要 数据 库 检 索 为 例 , 以 任意 词 “机 器 人 ”检索 图 书 获 
得 其 中 一 本 图 书 的 摘要 信息 如 下 (如 图 4-5 所 示 ): 不 仅 包括 图 书 内 容 摘要 ,也 包括 复 本 数 
与 累 借 数 ,藏书 地 点 和 位 置 、 作 者 与 分 类 号 、 页 数 与 价格 等 丰富 的 摘要 性 信息 。 


Er EE 


仿 人 机 器 人 : 肖 南 峰 

+ 作者 : 肖 南 峰 。， 出 版 社 : 科学 出 版 社 。 ， 出 版 时 间 : 2008 ， ISBN : 978-T-03-020521-6 

+ 索 书 号 : TP242/57， 分 类 号 ; TP242， 页 数 : 268 页 ， 价格 : 50. 00 

， 复 本 数 : 5 ， 在 馆 数 : 5 

+ 累 借 天 数 : 321 ， 累 漠 次 数 : 9 

本 书 仿照 仿 人 机 器 人 双眼 、 双 手 、 双 脚 、 大 脑 的 顺序 ， 首 先 介绍 了 仿 人 机 器 人 立体 视觉 的 基本 原理 、 视 沉 
模型 、 控 制 系统 和 控制 方法 。 其 次 ， 对 于 仿 人 机 器 人 五 指 形 灵巧 手 的 各 个 指 关节 及 其 驱动 机 构 等 进行 了 深 
入 的 阐述 等 。 


a 
馆 豪 信息 
条 码 号 索 书号 馆 襄 状态 流通 类 型 馆 痊 地 点 图 书 定位 
1367918 TP242/57 入 章 自然 科学 东区 馆 三 楼 五 库 二 这 


图 4-5 某 图 书馆 图 书 摘要 数据 库 检索 为 例 


4. 参考 工具 书 (reference) 

参考 工具 书 就 是 分 析 和 著录 大 量具 体 而 常用 的 科学 数据 与 事实 、 以 备查 用 的 各 种 常 
用 工具 书 的 总 称 。 例 如 ,查找 物理 量 、 物 质 特性 、 经 济 统 计数 据 、 专 业 术 语 的 含义 、 人 物 或 
公司 名 录 、 字 词 含义 等 大 量 自然 科学 和 社会 科学 数据 的 检索 工具 。 这 类 参考 工具 书包 括 
百科 全 书 、 年 鉴 手册、 指南 .名录 、 字 词典 等 。 图 4-6 是 在 英语 词典 “金山 词霸 ”中 ,输入 


72 /大 学 生 信息 检索 素养 教程 


“virtual reality” 词 语 后 的 检索 结果 : 结果 中 不 仅 有 标准 发 音 和 中 文 含义 ,而 且 包 含 基础 释 
义 、 双 语 释义 、 网 络 释义 和 行业 释义 等 丰富 的 解析 内 容 。 


基础 释义 午 津 词典 


virtual reality 外 日 


天 学 习 3 分 钟 ， 明 天 收获 一 名 英文 


双语 例句 
1. One day virlua ay will revolutionize the entertainment industry. 
有 一 天 虚拟 现 立 桩 使 娱乐 业 发 生 革 命 性 的 变化 


2. TIhis device helps make v 


图 46 英语 词典 “金山 词霸 "的 检索 实例 图 


aallly a more usable and accessible technology, 


5. 搜索 引擎 (searching engine) 

以 计算 机 技术 和 通信 技术 为 骨干 的 网 络 化 环境 ,支撑 了 规模 庞大 而 又 纷繁 复杂 的 
网 络 信息 资源 ,以 检索 网 络 信息 为 对 象 的 主要 检索 工具 一 一 搜索 引擎 ,在 20 世纪 80 年 
代 末 快速 发 展 起 来 。 搜 索引 擎 就 是 将 网 络 信息 按 一 定 分 类 方法 组 织 起 来 ,引擎 软件 自 
动 通过 搜索 网 址 (也 称 域名 或 IP 地址) 的 方式 来 实现 网 页 信息 的 智能 抓 取 、 自 适应 组 织 
与 管理 。 网 络 信息 检索 的 形式 多 样 , 既 可 以 是 一 般 信息 内 容 线索 (例如 虚拟 图 书馆 的 书 
目 在 线 检索 ) ,也 可 以 是 原始 全 文 信息 检索 ; 既 可 以 是 一 般 文本 信息 检索 ,也 可 以 是 图 、 
文 . 声 、 像 .动画 、 视 频 等 多 媒体 信息 检索 。 目 前 网 络 搜索 引擎 很 多 ,例如 Baidu、Google、 
Yahoo .Gopher 、 Infoseek、Lycos、Archie、Goyoyo、Chinavigator 等 。 图 4-7 是 搜索 引擎 
Lycos 的 检索 界面 , 它 和 著名 的 Baidu、Google 等 搜索 引擎 一 样 , 用 户 检 索 界面 简洁 而 
明了 。 


第 4 章 信息 检索 的 方法 与 策略 / 73 


MAIL NEWS VIDEO LIFE TRIPOD TV GAMESVILLE 


Nanning 52° 了 


ALYCOS | j 


Enables Excitement. 


Copyright © 2016 Lycos Abou 


图 4-7 搜索 引擎 Lycos 的 检索 界面 


4.5 信息 检索 途径 


信息 检索 途径 多 种 多 样 , 其 中 表明 信息 外 部 特征 的 相关 途径 有 标题 .责任 者 (或 作者 
与 发 布 者 ) .产生 机 构 序号、 信息 来 源 . 产 生 时间 、 范 围 . 路 径 ,点 击 量 或 访问 量 等 途径 : 与 
信息 内 容 特征 相关 的 途径 有 学 科 分 类 主题 和 关键 词 , 内 容 代码 (例如 化 学 分 子 式 、. 图 像 色 
彩 等 ) 等 途径 。 我 国 著名 的 “维普 期 刊 数据 库 ” 检 索 途 径 实 例如 图 4-8 所 示 。 


专业 限制 : 


回 时 间 : |1989 | -|2016~ 


| -题名 或 关 旬 司 -| [ 


Oma: [RE 有- 


] | 喜 看 同义词 】 
M= 题 名 或 关键 局 
7]| 外 ] [同名 / 合 著作 者 ] 
外 ] [查看 分 类 表 ] 
A= 作 者 Y 
[5 -Fh | | [于 相关 机 ] 
5 4 寺 | | 
站 
检索 清除 
时 间 : | 由 = 任意 字段 


团 社会 科学 回 径 济 管理 加 图书 情 报 回教 育 科学 加 自 儿科 学 回 农 业 科学 加 医药 卫 生 回 工程 技术 


〇 核心 期 刊 @ 全 部 期 刊 O 〇 EI 绸 财 刊 CD SCEK 源 央 刊 CD) CA 条 源 央 刊 CD) CSCD 示 源 贿 刊 CD) CSSCH 奈 涯 明和 


图 4-8 


信息 检索 途径 实例 图 
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用 户 在 信息 检索 与 获取 过 程 中 常用 的 检索 途径 有 内 容 分 类 途径 .关键 词 或 主题 途径 、 
著者 途径 .题名 或 标题 途径 .引文 途径 .序号 途径 .代码 途径 等 。 表 4-1 为 检索 途径 分 
类 表 。 

表 4-1 检索 途径 分 类 表 


信息 特征 信息 特征 划分 信息 检索 途径 
标题 名 标 是 
著者 名 著者 
来 源 机 构 名 号 码 
外 部 特征 信息 编号 来 源 
载体 类 型 编号 载体 类 型 
信息 检索 途径 类 型 点 击 量 与 访问 量 点 击 量 
分 类 范畴 分 类 号 
主题 词 主题 词 
内 容 特征 关键 词 关键 词 
其 他 (分 子 式 等 ) 分 子 式 


1. 分 类 检索 途径 

分 类 途径 是 一 种 按 学 科 分 类 体系 来 采集 .存储 和 检索 信息 的 途径 。 这 一 途径 是 以 知 
识 体系 为 中 心 进行 分 类 组 织 的 ,能 够 体现 信息 内 容 的 学 科 系统 性 ,反映 学 科 与 信息 内 容 的 
隶属 、 派 生 与 平行 关系 ,便于 人 们 从 熟悉 的 学 科 所 属 范 围 来 查找 所 需 信 息 , 并 且 可 以 起 到 
“ 触 类 劳 通 ” 的 作用 (例如 同类 信息 或 跨 学 科 信息 的 查询 )。 分 类 检索 途径 使 用 分 类 语言 、 
分 类 目录 及 分 类 索引 等 检索 工具 。 例 如 《科学 文摘 ?的 正文 就 是 按照 分 类 编排 的 ,可 以 利 
用 分 类 表 , 按 分 类 进行 查找 。 

信息 和 知识 的 体系 化 分 类 .比较 典型 且 成 熟 的 是 我 国 的 “中 国 图 书馆 分 类 法 ”, 其 分 类 
严密 、 科 学 、 完 整 且 系统 化 (如 下 小 体 字 所 示 ), 对 大 型 检索 系统 或 特定 学 科 范 畴 的 信息 查 
询 有 很 好 的 帮助 作用 。 


A 马克思、 列宁 、 毛 泽 东 、 邓 小 平 理论 A49 邓小平 著作 
Al 马克 思 ,、 恩 格 斯 著作 A5 马克 思 、 恩 格 斯 列宁、 斯 大 林 、 毛 泽 东 、 邓 小 
A2 列宁 著作 平 著 作 汇编 
A3 斯 大 林 著 作 A7 马克思、 恩格斯、 列宁、 斯 大 林 、 毛 泽 东 、 邓 小 


A4 毛泽东 著作 平生 平和 传记 


A8 马克 思 主 义 、 列 宁 主 义 、 毛 泽 东 思想 、 邓 小 平 


理论 的 学 习 和 研究 


也 哲学、 宗教 


B0 哲学 理论 

Bl 世界 哲学 

B2 中 国 哲 学 

B3 亚洲 哲学 

B4 非洲 哲学 

B5 欧洲 哲学 

B6 大 洋 洲 学 

B7 美洲 哲学 

B80 思维 科学 

B81 逻辑 学 ( 论 理学 ) 
B82 伦理 学 (道德 哲学 ) 
B83 美学 

B84 心理 学 

B9 宗 


C 社会 科学 总 论 


C0 社会 科学 理论 与 方法 论 


C 社会 科学 总 论 


Cl 社会 科学 概况 ,现状 、 进 展 
C2 社会 科学 机 构 .团体 、 会 议 
C3 社会 科学 研究 方法 

C4 社会 科学 教育 与 普及 

C5 社会 科学 丛书 文集 .连续 性 出 版 物 
C6 社会 科学 参考 工具 书 

C7 社会 科学 文献 检索 工具 书 
C79 非 书 资料 、 视 听 资 料 

C8 统计 学 

C91 社会 学 

C92 人 口 学 

C93 管理 学 

C94 系统 科学 

C95 民族 学 .文化 人 类 学 
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C96 人 才学 
C97 劳动 科学 


D 政治 法律 


D0 政治 学 ,政治 理论 

D1 国际 共产 主义 运动 

D2 中 国共 产 党 

D33/37 各 国共 产 党 

D4 工人、 农民、 青年、 妇女 运动 与 组 织 
D5 世界 政治 

D6 中 国政 治 

D73/77 各 国政 治 

D8 外 交 、 国 际 关系 

D9 法 律 


E 军事 


E0 军事 理论 
E1 世界 军事 

E2 中 国 军事 

E3/7 各 国 军事 

Es 战略 学 ,战役 学 ,战术 学 
E9 军事 技术 

E99 军事 地 形 学 ,军事 地 理学 


F 经 济 


F0 经 济 学 

Fl 世界 各 国 经 济 概况 .经济 史 、 经 济 地 理 
F2 经 济 管理 

F3 农业 经 济 

F4 工业 经 济 

F49 信息 产业 经 济 
F5 交通 运输 经 济 
F59 旅游 经 济 

F6 邮电 通信 经 济 
F7 贸易 经 济 

F8 财政 .金融 


G 文 化 科学、 教育、 体育 
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G0 文化 理论 

G1 世界 各 国文 化 与 文化 事业 
G2 信息 与 知识 传播 

G3 科学 .科学 研究 


HIl 汉语 
H2 中 国 少数 民族 语言 
H3 常用 外 国语 
H4 汉 藏 语系 
H5 阿尔 泰语 系 (突厥 一 蒙古 一 通古斯 语系 ) 
H61 南亚 语系 ( 澳 斯 特 罗 一 亚细亚 语系 ) 
H62 南 印 语系 ( 达 罗 吡 茶 语 系 、 德 拉 维 达 语 系 ) 
H63 南 岛 语系 ( 马 来 - 波 利 西 亚 语系 ) 
H64 东北 亚 诸 语言 
H65 高 加 索 语系 (伊比 利 亚 一 高 加 索 语系 ) 
H66 乌拉 尔 语系 (芬兰 一 乌 蕊 尔 语系 ) 
H67 闪 一 含 语 系 ( 阿 非 罗 一 亚细亚 语系 ) 
H7 印 欧 语系 
HS81 非洲 诸 语言 
H83 美洲 诸 语言 
H84 大 洋 洲 诸 语言 
H9 国际 辅助 语 
I 文学 
I0 文学 理论 
Il 世界 文学 
I2 中 国文 学 
I3/7 各 国文 学 
丁 艺术 
J0 艺术 理论 
J] 世界 各 国 艺术 概况 
J19 专题 艺术 与 现代 边缘 艺术 


J2 绘画 

J29 书法 、 篆 刻 

J3 雕塑 

J4 摄影 艺术 

J5 工艺 美术 
[59] 建 筑 艺术 

J6 音乐 

J7 舞蹈 

J8 戏剧 .曲艺 .杂技 艺术 
J9 电影 .电视 艺术 


K 历史 .地 理 


K0 史学 理论 
Kl 世界 史 
K2 中 国史 
K3 亚洲 史 
K4 非洲 史 
K5 欧洲 史 
K6 大 洋 洲 史 
K7 美洲 史 
K81 传记 
K85 文物 考古 
K89 风俗 习惯 
K9 地 理 


N 自然 科学 总 论 


N0 自然 科学 理论 与 方法 论 
N1 自然 科学 概况 现状、 进展 
N2 自然 科学 机 构 、 团 体 、 会 议 
N3 自然 科学 研究 方法 

N4 自然 科学 教育 与 普及 


N5 自然 科学 丛书 ,文集 .连续 性 出 版 物 


N6 自然 科学 参考 工具 书 
LN7] 自 然 科 学 文献 检索 工具 
N79 非 书 资料 ,视听 资料 
N8 自然 科学 调查 、 考 察 


N91 自然 研究 .自然 历史 
N93 非 线性 科学 

N94 系统 科学 
[N99] 情 报 学 ,情报 工作 


O 数理 科学 和 化 学 


O1 数学 
03 力 学 
O4 物理 学 
06 化 学 
0O7 晶体 学 


P 天 文学 \ 地 球 科学 
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R 医药 .卫生 


R1 预防 医学 .卫生 学 

R2 中 国医 学 

R3 基础 医学 

R4 临床 医学 

R5 内 科学 

R6 外 科学 

R71 妇 产 科学 

R72 儿科 学 

R73 肿瘤 学 

R74 神经 病 学 与 精神 病 学 


P1 天 文学 R75 皮肤 病 学 与 性 病 学 
P2 测绘 学 R76 耳鼻 咽喉 科学 
P3 地 球 物 理学 R77 眼科 学 
P4 大 气 科 学 (气象 学 ) R78 口腔 科学 
P5 地 质 学 R79 外 国民 族 医 学 
Pp7 海洋 学 RS8 特种 医学 
P9 自然 地 理学 R9 药学 

Q 生物 科学 S 农业 科学 
Ql 普通 生物 学 Sl 农业 基础 科学 
Qz2 细胞 生物 学 S2 农业 工程 
Q3 遗传 学 S3 农学 (农艺 学 ) 

Q4 生理 学 S4 植物 保护 

Q5 生物 化 学 S5 农作物 

Q6 生物 物理 学 S6 园艺 

Q7 分 子 生物 学 S7 林业 

Q81 生物 工程 学 (生物 技术 ) S8 畜牧 、 动 物 医学 .狩猎 、 蚕 、 蜂 
[Q89] 环 境 生物 学 S9 水 产 .渔业 

Q91 古生物 学 T 工业 技术 

Q93 微生物 学 TB 一 般 工业 技术 
Q94 植物 学 TD 矿业 工程 

Q95 动物 学 TE 石油 .天然气 工 业 
Q96 昆虫 学 TF 冶金 工业 


Q98 人 类 学 TG 金属 学 与 金属 工艺 
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TH 机 械 、 仪 表 工 业 V4 航 天 (宇宙 航行 ) 
TJ 武器 工业 [V7] 航 空 .航天 医学 
TK 能 源 与 动力 工程 X 环境 科学 ,安全 科学 
TL 原子 能 技术 X1 环境 科学 基础 理论 
TM 电工 技术 X2 社会 与 环境 
TN 电子 技术 ,通信 技术 X3 环境 保护 管理 
TP 自动 化 技术 、 计 算 机 技术 X4 灾害 及 其 防治 
TQ 化 学 工业 X5 环境 污染 及 其 防治 
TS 轻工业 、 和 手工业、 生活 服务 业 X7 行业 污染 、 废 物 处 理 与 综合 利用 
TU 建筑 科学 X8 环境 质量 评价 与 环境 监测 
TV 水 利 工 程 X9 安全 科学 
U 交通 运输 Z 综合 性 图 书 
Ul 综合 运输 Z1 丛书 
U2 铁路 运输 Z2 百科 全 书 、 类 书 
U4 公路 运输 Z3 词典 
U6 水 路 运输 Z4 论文 集 、 全 集 、 选 集 、 杂 著 
[U8] 航 空运 输 Z5 年 鉴 .年 刊 
V 航空 .航天 Z6 期 刊 .连续 性 出 版 物 
V1 航空 .航天 技术 的 研究 与 探索 Z8 图 书 报刊 目录 文摘、 索引 
V2 航空 
2. 主题 检索 途径 


主题 检索 途径 是 依据 信息 资料 内 容 的 主题 属性 范畴 进行 检索 的 常用 途径 。 主 题词 是 
标 引 人 员 和 检索 人 员 的 通用 词 。 各 种 检索 工具 或 检索 系统 所 采用 的 全 部 主题 词 ,是 通过 
参照 关系 和 规范 化 处 理 , 使 同义词 .近义词 ` 同 族 词 \ 相 关 词 作为 加 工 与 标 引 以 及 检索 人 员 
的 共同 依据 。 它 打破 了 按 学 科 分 类 的 单一 方法 ,使 分 散在 各 个 学 科 领 域 里 的 有 关 课 题 的 
信息 按 字 顺 集中 于 同一 主题 范围 内 ,使 用 时 就 如 同 查 字 典 一 样 按 字 顺 找到 所 需 的 主题 词 ， 
在 该 词 下 , 列 出 反映 该 主题 内 容 的 有 关 人 信息。 主题 目录 和 主题 索引 就 是 将 文献 按 表征 其 
内 容 特征 的 主题 词组 织 起 来 的 索引 系统 。 利 用 主题 途径 检索 时 ,只 要 根据 所 选用 主题 词 
的 字 顺 (字母 顺序 、 音 序 或 笔画 顺序 等 ) 找 到 所 查 主题 词 ,就 可 查 得 相关 信息 内 容 。 图 4-9 


是 “ 汉 


语 主 题词 表 ” 的 一 个 实例 。 


主题 检索 途径 具有 适应 性 强 、 直 观 性 强 、 通 用 性 强 、 专 指 度 高 .检索 方便 等 特点 ,不 必 


像 使 用 分 类 途径 那样 , 先 考虑 需求 信息 或 知识 的 所 属 学 科 范 围 、 确 定 分 类 号 等 ,随时 可 以 
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汉语 拼音 一 Dianshi xianxiangguan 
款 目 主题 词 一 电视 显像管 
英文 译名 一 Kinescope 
Television tube 
用 项 符号 一 1 品 像 管 同义词 
(正式 主题 词 ) 
汉语 拼音 一 一 ~* Gaowenfa 
款 目 主题 词 一 一 一 ?高 温 阀 一 范 哮 号 
含义 注释 (温度 > 450C) 
英文 译名 一 一 High temperature valves 
属 项 符号 一 一 一 一 一 S$S 。 阀门 * ee 族 首 词 符号 
广义 词 、 族 首 词 


汉语 拼音 — Xianxiangguan 


款 日 主题 词 一 一 一 一 显像管 时 号 


英文 译名 一 Kenescope 


Picture tube 
代 项 符号 0) 电视 显像管 本 一 一 同义词 
监视 管 ( 非 正 式 主题 词 ) 
分 项 符号 一 一 一 一 下 彩色 显像管 二 一 狄 义 记 
固体 显像管 pe 
黑白 显像管 
属 项 符号 一 一 一 一 S$。 电子 束 管 本 一 广义 词 
族 项 符号 一 一 一 一 2 电子 ry 族 首 词 符号 
族 首 词 
参 项 符号 “显示 管 者 一 一 一 一 一 一 一 相关 记 


i 


图 4-9 主题 词 的 直观 性 强 、 通 用 性 强 与 高 专 指 度 的 示意 图 实例 


增加 或 取消 新 旧 信 息 概念 主题 , 且 具 有 唯一 性 。 主 题 途径 表征 概念 较为 准确 、 灵 活 , 不 论 
主题 多 么 专 深 都 能 直接 表达 和 查找 ,并 能 满足 多 主题 课题 和 交叉 边缘 学 科 检 索 的 需要 。 

3. 关键 词 途径 

该 途径 是 按照 信息 标题 或 信息 内 容 中 具有 实际 意义 并 能 表述 信息 主要 内 容 、 起 关键 
作用 的 词 或 词组 ,按照 关键 词 的 字 顺 或 拼音 顺序 在 检索 系统 中 使 用 的 检索 途径 。 关 键 词 


80 /大 学 生 信 息 检索 素养 教程 


与 主题 词 不 同 之 处 在 于 : 主题 词 是 规范 化 的 检索 词 , 而 关键 词 是 未 经 过 加 工 处 理 的 自然 
语言 ,能 够 很 好 地 表达 信息 生产 者 和 信息 查询 的 关键 意图 ,关键 词 对 揭示 信息 内 容 起 着 关 
键 作 用 。 

用 于 搜索 引擎 或 通用 数据 库 的 信息 检索 ,大 多 采用 的 是 基于 关键 字 索 引 系统 (手动 或 
者 自动 ) 组 织 和 提取 信息 。 其 优点 是 无 须 规范 化 、 编 制 索引 文档 快 . 检 索 入 口 多 ,缺点 是 由 
于 同义词 标 引 多 ,将 同一 主题 的 信息 分 散在 不 同 关键 词 的 索引 文档 中 。 

4. 题名 检索 途径 

题名 也 就 是 信息 的 标题 名 称 , 例 如 书刊 名 ,论文 篇 名 、 会 议 名 称 、 专 利 名 称 、 网 页 或 网 
站 标题 等 ,用 来 作为 检索 信息 途径 。 例 如 ,“ 图 书 书 名 索引 ”、“ 期 刊 刊 名 目录 ”、“ 会 议 名 称 
索引 ?等 。 题 名 检索 的 实施 ,需要 利用 题名 检索 工具 或 题名 检索 系统 提供 的 题名 检索 功 
能 ,诸如 书 名 目录 、 篇 名 索引 、 期 刊 名 称 文档 等 。 一 般 多 用 于 查找 图 书 、 期 刊 或 单 篇 论文 的 
原始 文献 信息 。 以 “计算 机 学 科 的 中 文 核心 学 术 期 刊 名 ”为 检索 对 象 的 题名 检索 实例 如 
图 4-10 所 示 。 


其 入学 科 分 类 导 了 |】 模 心 期刊 导 驱 | 国内 外 数据 库 收 对 导 信 | 期 刊 夫 区 分 布 导 院 | 
工业 技术 > 自动 化 技术 、 计 算 机 技术 
口 北大 2004 版 核心 期 刊 。 加 北大 2008 版 核心 期 刊 加 北大 2011 版 核心 期 刊 。 加 中 文 社会 科学 引文 索引 
癌 中 国 科学 引文 数据 库 加 中 国 科技 论文 统计 源 贿 刊 (中 国 科技 楼 心 期 刊 】 加 中 国人 文科 学 核心 期 刊 要 览 (2008 年 版 ) 
共 66 种 期刊 , 2 页 首页 上 一 页 第 1 页 下 一 页 尾 页 跳 转 
加 传 感 技术 学 报 口传 感 技术 学 报 口 传感器 与 癌 系 统 
口 传感器 与 微 系 统 口 测控 技术 口 测控 技术 
口 工矿 自动 化 口 工矿 自动 化 口 计算 机 与 应 用 化 学 
口 计算 机 与 应 用 化 学 口 计算 机 辆 助 设计 与 图 形 学 学 报 ..， | 口 计算 机 畏 助 设计 与 图 形 学 学 报 .… 
口 计 算 机 科学 口 计算 机 科学 口 计 算 机 工程 与 科学 
口 计算 机 工程 与 科学 口 计算 机 仿真 口 计算 机 仿真 
口 计算 机 学 报 口 计算 机 学 报 口 机 器 人 
口 机 器 人 口 计算 机 研究 与 发 展 口 计算 机 研究 与 发 展 
口 计算 机 工程 与 设计 口 计 算 机 工程 与 设计 口 计算 机 应 用 
口 计算 机 应 用 口 计算 机 应 用 研究 口 计算 机 应 用 研究 
口 计算 机 应 用 与 软件 口 计算 机 应 用 与 软件 口 计算 机 测量 与 控制 
口 计算 机 测量 与 控制 口 控制 理论 与 应 用 口 控制 理论 与 应 用 
口 控制 与 决策 口 控制 与 决策 口 控制 工程 
口 控 制 工程 口 模式 识别 与 人 工 智能 口 模式 识别 与 人 工 智能 
口 软件 学 报 口 软件 学 报 口 数据 末 集 与 处 理 


图 10 中文 计算 机 类 核心 期 刊 题名 检索 实例 
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5. 著者 途径 

这 是 用 信息 的 著者 、 编 者 、 译 者 ,发 布 者 的 姓名 或 机 构 团 体 名 称 作为 信息 的 检索 途径 ， 
用 来 检索 特定 的 个 人 或 团体 所 产生 的 信息 。 著 者 索引 按 著者 姓名 字 顺 (包括 字母 或 笔画 ) 
编排 ,其 信息 检索 直观 .明了 , 查 准 率 较 高 。 国 外 比较 重视 著者 途径 的 利用 ,许多 检索 工具 
和 检索 系统 都 把 著者 作为 最 基本 的 辅助 途径 。 它 是 按 著者 的 姓名 字 顺 ,并 将 有 关 著 者 生 
成 的 信息 进行 排序 而 成 。 以 著者 为 线索 可 以 系统 、 连 续 地 掌握 个 人 或 机 构 的 研究 水 平和 
信息 属性 动态 ,同一 著者 的 信息 (特别 是 研究 性 论著 ) 往 往 具 有 一 定 的 逻辑 联系 ,著者 途径 
能 满足 一 定 族 性 检索 功能 要 求 。 

著者 检索 的 特点 是 : 检索 者 或 科研 人 员 一 般 都 熟知 自己 所 从 事 领 域 中 的 知名 学 者 、 
专家 、 同 行 ,以 及 竞争 对 手 企 业 的 名 称 , 通 过 著者 (信息 生成 机 构 名 称 ) 线 索 进行 检索 ,可 以 
系统 地 发 现 和 掌握 这 些 著 者 和 机 构 的 研究 成 果 和 进展 的 最 新 信息 ;著者 或 机 构 名 称 具 有 
一 定 的 稳定 性 ,将 其 作为 检索 入 口 往往 可 以 达到 多 快 好 省 的 检索 效果 ,此 外 ,由 于 著者 所 
从 事 的 职业 .学科 和 专业 也 具有 一 定 的 稳定 性 ,因此 ,还 可 以 将 著者 检索 看 成 是 一 种 隐 含 
的 主题 检索 。 由 于 著者 的 “同名 性 ”( 即 著者 姓名 相同 ) ,特别 是 我 国 同名 现象 普遍 ,在 使 用 
著者 途径 检索 信息 时 ,需要 使 用 “高 级 检索 ”的 分 类 ,主题 机构、 来 源 或 职业 等 进行 组 配 与 
逻辑 功能 ,否则 会 产生 大 量 无 关 信 息 并 增加 对 检索 结果 的 评估 、 筛 选 与 利用 的 难度 和 工 
作 量 。 

6. 序号 途径 

序号 途径 是 按照 信息 出 版 或 生成 时 所 编 的 特征 性 序号 来 检索 信息 的 辅助 途径 。 这 类 
检索 有 “专利 号 索引 ”“ 标 准 号 索引 ”、“ 报 告 号 索引 ”等 。 号 码 一 般 用 字母 或 数字 或 它们 的 
混合 形式 来 表示 ,检索 按 号 码 顺序 查找 。 如 美国 的 《化 学 文摘 》(CA) 就 使 用 了 专利 号 索 
引 。 利 用 序号 途径 , 需 对 序号 的 编码 规则 和 排 检 方法 有 一 定 的 了 解 ;往往 可 以 从 序号 判断 
特定 信息 的 种 类 、 出 版 的 年 份 等 ,有 助 于 提高 检索 的 查 准 率 。 

7. 分 子 式 途径 

这 是 以 化 学 物质 的 分 子 式 作 为 检索 标识 来 检索 信息 的 一 种 途径 。 使 用 的 检索 工具 是 
“分 子 式 索 引 ”。 从 “分 子 式 索引 ”中 检索 出 化 学 物质 的 准确 名 称 ,然后 再 检索 “化 学 物质 索 
引 ”。 该 途径 主要 在 美国 (化 学 文摘 XCA) 中 使 用 。 

8. 引文 途径 

引文 途径 是 从 作者 途径 去 检索 引用 该 作者 著作 的 相关 文献 信息 或 者 网 络 中 的 链接 网 
页 , 它 不 仅 反映 了 某 个 作者 历年 来 生成 了 哪些 信息 ,而 且 也 反映 了 该 作者 的 每 篇 信息 又 被 
哪些 相关 作者 进行 了 借鉴 ,参考 与 引用 ,从 而 又 进一步 生成 了 哪些 相关 信息 。 比 较 常用 的 
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检索 工具 有 美国 的 (科学 引文 索引 》SCI) .中国 社会 科学 引文 索引 等 。 利 用 引文 索引 可 以 
了 解 某 作 者 的 某 篇 信息 被 引用 的 情况 ,进而 评价 某 一 信息 的 作用 价值 或 关联 性 价值 ,以 扩 
大 信息 检索 范围 ,从 而 保证 信息 检索 的 查 全 率 。 

9. 特征 代码 途径 

这 是 通过 特征 代码 检索 并 获取 特定 信息 的 常用 途径 ,比如 大 学 生 常常 用 手机 扫描 商 
品 或 网 站 的 二 维 码 就 是 典型 的 实例 。 特 征 代 码 包括 如 图 书 的 国际 标准 书号 (ISBN)、 国 际 
标准 连续 出 版 物 代号 (ISSN) ,专利 号 ,合同 号 或 产品 代码 (例如 商品 的 条 形 码 )、 读 者 的 借 
阅 证 号 、 人 的 身份 证 号 、 网 站 二 维 码 等 。 某 些 特 征 代 码 是 信息 类 型 或 信息 内 容 的 特有 标 
识 , 在 已 知 信 息 代 码 的 前 提 下 ,用 此 途径 检索 信息 更 加 方便 、 快 捷 而 且 准 确 、 高 效 。 例 如 ， 
利用 具有 全 球 唯一 性 的 ISBN 或 ISSN 可 迅速 地 从 数据 库 中 查询 特定 的 唯一 性 图 书 或 期 
刊 ; 利 用 SIC 代码 ,可 以 快捷 地 检索 出 美国 企业 生产 的 产品 。 但 代码 检索 的 前 提 是 需要 掌 
握 欲 查询 信息 的 代码 含义 ,这 些 代 码 的 含义 和 标识 符 往 往 可 以 利用 某 些 检索 工具 或 系统 
的 辅助 检索 功能 进行 认识 和 把 握 。 

10. 其 他 途径 

除了 上 述 常 见 的 检索 途径 之 外 ,还 可 按照 专业 领域 的 需要 ,以 及 文献 或 信息 的 出 版 类 
型 、 出 版 日 期 \ 出 版 国 别 语种、 所 载 信息 的 域名 、IP 地 址 、 文 件 路 径 等 特征 ,进行 信息 

总 的 来 说 ,分 类 途径 以 学 科 体系 为 基础 , 按 分 类 编排 ,系统 性 好 ,适合 于 族 性 检索 ; 主 
题 途径 直接 用 文字 表达 主题 ,概念 准确 、 灵 活 , 适 合 于 特征 检索 ;关键 词 检索 以 自然 语言 的 
方式 能 够 揭示 信息 生产 者 的 自然 意图 并 对 表达 内 容 含义 起 着 关键 作用 。 而 以 信息 外 部 特 
征 的 诸多 检索 途径 来 查询 信息 ,便于 信息 用 户 理解 和 识别 ,直观 明了、 快捷 且 信息 检索 准 
确 ( 例 如 商品 条 形 码 或 二 维 码 、 网 站 IP 地 址 等 ) 。 


4.6 信息 检索 方法 


在 浩如烟海 的 信息 世界 中 要 迅速 准确 地 查阅 到 自己 所 需要 的 信息 ,需要 遵循 准确 、 
全 面 、 深 入 ,快捷 的 一 般 检 索 原 则 ,其 中 首要 的 原则 是 准确 。 在 信息 检索 活动 中 要 勤 于 积 
累 、 善 于 思考 。 更 重要 的 是 ,要 灵活 掌握 和 运用 信息 检索 的 基本 方法 。 一 般 来 说 ,信息 检 
索 的 方法 主要 有 以 下 几 种 。 

1. 常规 法 

常规 法 又 称 检索 工具 法 ,是 指 直接 利用 检索 系统 (或 检索 工具 ) 的 方法 。 它 是 以 主题 、 
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分 类 、 著 者 等 途径 ,通过 检索 工具 获取 所 需 信息 的 一 种 主要 方法 ,这 种 方法 又 可 分 为 顺 查 
法 、 倒 查 法 和 抽查 法 。 

(1) 顺 查 法 。 顺 查 法 是 指 在 约束 的 起 始 年 代 范 围 内 按照 时 间 顺 序 , 由 远 及 近 地 利 用 
检索 系统 逐年 进行 信息 检索 的 方法 。 这 种 方法 能 够 搜集 到 与 某 一 信息 需求 相关 的 系统 性 
内 容 , 它 适 用 于 较 大 需求 主题 或 研究 课题 的 检索 。 例 如 ,已 知 某 需 求 课 题 的 起 始 年 代 , 需 
要 掌握 其 发 展 的 脉络 与 全 过 程 , 就 可 以 用 顺 查 法 从 课题 最 初 研究 的 年 代 开 始 , 逐 渐 向 近期 
查找 。 又 如 ,已 知 某 项 创造 发 明 或 研究 成 果 最 初 产生 的 年 代 , 需 要 了 解 它 的 演变 与 最 新 发 
展 情况 , 即 可 从 最 初 年 代 开 始 ,按时 间 的 先后 顺序 ,逐年 地 往 近期 查找 。 用 这 种 方法 所 查 
得 的 信息 较为 系统 全 面 ,基本 上 可 以 反映 某 学 科 专 业 或 某 课题 发 展 的 全 貌 。 一 般 在 申请 
专利 的 查 新 .准备 论文 开题 报告 .学术 论文 的 研究 综述 撰写 .课题 论证 等 活动 中 多 采用 这 
种 方法 。 

(2) 倒 查 法 。 倒 查 法 是 由 近 及 远 , 从 新 到 旧 ,依据 逆 时 间 顺 序 检 索 所 需 信 息 , 它 的 重点 
是 放 在 相关 需求 课题 的 最 新 内 容 上 。 使 用 这 种 方法 可 以 较 快 地 获得 最 新 资料 ,这 种 方法 
有 利于 保证 所 获得 信息 的 新 颖 性 ,可 以 提高 检索 的 效率 。 倒 查 法 可 以 依据 论文 或 论著 的 
参考 文献 信息 或 者 网 页 的 相关 链接 页 面 等 提示 ,对 所 需 信 息 进行 一 定时 间 节 点 的 追溯 ,对 
进一步 启发 自身 的 真正 信息 需求 点 ,明确 自身 的 最 终 信 息 获取 目的 与 创新 性 应 用 ,有 很 好 
的 帮助 作用 。 

(3) 抽查 法 。 抽 查 法 是 指针 对 信息 需求 内 容 的 某 些 时 间 段 或 针对 需求 项 目的 某 些 主 
题 范 围 ,选择 有 代表 性 的 可 能 样本 进行 抽样 检索 的 方法 。 这 种 方法 针对 性 强 , 节 省 时 间 ， 
信息 筛选 量 较 少 .信息 评价 与 利用 效率 加 快 , 有 利于 提高 信息 检索 活动 的 效率 。 抽 查 法 的 
核心 是 样本 量 和 抽查 概率 评估 方法 ,如 果 抽查 法 的 样本 量 不 足 或 抽样 概率 简单 化 , 则 获取 
的 信息 样本 所 具有 的 代表 性 就 不 强 , 有 可 能 误导 真实 的 信息 需求 意图 或 信息 利用 价值 。 
反之 ,抽查 法 的 信息 样本 量 越 大 或 抽样 概率 方法 越 复杂 , 则 信息 检索 活动 的 工作 量 和 成 本 
就 会 成 倍增 加 ,其 信息 检索 结果 的 代表 性 就 会 大 幅度 提高 。 

对 于 大 学 生 而 言 , 顺 查 法 、 倒 查 法 和 抽查 法 各 有 优点 , 顺 查 法 在 时 间 上 由 远 及 近 , 查 全 
率 较 高 ; 倒 查 法 在 时 间 上 由 近 及 远 , 查 准 率 较 高 ;抽查 法 则 用 于 满足 信息 需求 的 高 级 阶段 
(例如 考研 冲刺 .课程 期 未 复习 、 研 究 项 目 结 题 .学 术 论文 总 结 等 ) ,信息 检索 的 效率 较 高 。 

2. 引文 法 

引文 法 常常 称 为 引文 索引 法 。“ 引 文 索引 法 ”(citation index) ,最 初 是 指 一 种 以 文献 
之 间 的 引证 关系 为 基础 编制 的 、 供 人 们 从 被 引证 文献 的 角度 去 检索 引证 文献 的 方法 ,又 称 
“引证 索引 ”。 目 前 已 经 延伸 到 各 种 数据 库 内 部 信息 之 间 的 看 合 度 (关联 性 程度 ) 或 Web 


84 /大 学 生 信 息 检索 素养 教程 


信息 之 间 链 接 层次 关系 (网 页 重要 性 评判 ) 等 诸多 领域 。 引 文 索引 法 是 指 利用 引文 索引 ， 
如 科学 引文 索引 (SCI) .社会 科学 引文 索引 (SSCI) ,中 文 社会 科学 引文 索引 (CSSCD 等 ,从 
被 引 论文 开始 查找 引用 它 的 全 部 论文 的 情况 。 通 过 这 种 方法 可 以 由 远 及 近 地 得 到 与 同一 
主题 相关 的 批量 信息 之 间 的 关联 度 和 彼此 的 重要 性 程度 ,可 以 使 信息 检索 的 结果 “ 越 查 越 
新 ”“ 越 查 越 重要 ”, 从 而 在 保证 信息 检索 查 全 率 的 基础 上 ,获得 最 新 .最 有 价值 的 信息 。 

3. 综合 法 

综合 法 又 称 分 段 法 、 循 环 法 或 交替 法 ,是 交替 使 用 常规 法 和 引文 法 来 进行 融合 性 检索 
活动 的 方法 , 它 可 以 对 常规 法 和 引文 法 进行 取长补短 ,相互 配合 ,以 获得 更 好 的 检索 结果 ， 
最 大 化 满足 信息 用 户 的 信息 需求 。 在 进行 具体 检索 时 ,首先 利用 检索 工具 查找 出 一 批 相 
关 信 息 , 再 利用 这 些 信息 资料 所 附录 的 参考 信息 或 网 页 链接 信息 进行 进一步 追溯 查找 。 
如 此 交替 、 循 环 使 用 常规 法 和 引文 法 ,不 断 地 进行 扩展 查询 ,直到 满足 检索 要 求 为 止 。 这 
种 方法 兼 有 常规 法 和 引文 法 的 优点 ,使 得 信息 的 查 全 率 和 查 准 率 都 得 到 大 幅 提高 。 

4. 浏览 法 

利用 以 上 的 常规 法 .引文 法 或 综合 法 检索 信息 是 大 学 生 和 科研 人 员 获 得 信息 的 主要 
检索 途径 ,只 要 方法 得 当 , 往 往 可 以 事半功倍 。 但 是 ,由 于 一 般 检 索 系 统 或 检索 工具 只 能 
存储 有 限 范围 的 新 闻 、 期 刊 图 书 或 信息 用 户 的 自 媒体 信息 (例如 社交 网 络 上 的 用 户 自己 生 
成 的 信息 ) ,而 且 由 于 信息 和 知识 的 版 权 问 题 ,检索 工具 与 原始 信息 之 间 往 往 会 有 一 定时 
间 差 。 为 了 弥补 这 些 缺 陷 ,信息 用 户 还 可 以 借助 浏览 法 等 其 他 方法 来 收集 所 需要 的 信息 。 
浏览 法 是 高 层次 人 才 ( 包 括 大 学 生 、 科 技工 作者 在 内 ) 获 取信 息 的 一 种 重要 方法 , 即 信 息 用 
户 对 本 专业 或 本 学 科 的 重要 期 刊 . 学 科 网 站 和 专门 数据 库 等 ,尤其 是 权威 核心 期 刊 .专著 
和 学 科 网 站 的 信息 进行 逐一 浏览 查阅 ,以 掌握 最 新 动态 和 发 展 动向 。 浏览 法 的 优点 是 能 
够 及 时 地 查阅 最 新 生产 的 原始 信息 内 容 , 最 快 地 获取 第 一 手 资料 ,例如 有 规律 地 浏览 专业 
或 行业 网 站 及 其 专题 数据 库 , 可 以 逐步 积淀 专业 性 信息 检索 的 信息 量 基础 ,为 日 益 增 长 的 
常规 法 .引文 法 或 综合 法 信息 检索 提供 支持 作用 。 


4.7 信息 检索 策略 


信息 检索 是 一 项 实践 性 很 强 的 活动 , 它 要 求 信 息 用 户 善 于 思考 ,并 通过 经 常 性 的 实 
践 ,逐步 掌握 检索 规律 ,从 而 在 海量 信息 源 中 准确 而 高 效率 地 检索 、 获 取 与 利用 信息 .实现 
信息 需求 满足 的 最 大 化 。 

所 谓 信 息 检索 策略 (如 图 411 所 示 ) ,是 指 用 户 在 信息 需求 分 析 的 基础 上 拟定 恰当 的 
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检索 方案 ,为 检索 过 程 提 供 潜在 或 快速 的 指导 ,其 目的 是 为 了 优化 检索 过 程 , 提 高 检索 效 
率 ,全 面 、 准 确 . 快 速 、 低 成 本 地 检索 到 所 需 信息 。 信 息 检 索 策略 一 般 包 括 信 息 需求 分 析 、 
选择 相关 信息 资源 .构造 检索 表达 式 .选择 检索 方法 进行 操作 、 对 检索 结果 评价 和 对 检索 
策略 进行 调整 等 过 程 。 


需求 课题 于 一 一 用 户 


主题 分 析 [一 一 >| 选择 检索 系统 [一 一 =| 确定 检索 工具 


| 


具体 操作 | 一 一 一 制定 检索 表达 式 | | 选择 检索 途径 


结果 输出 


图 4-11 信息 检索 策略 示意 图 


1. 信息 需求 分 析 

在 信息 化 与 网 络 化 环境 中 ,信息 量 之 所 以 呈 几 何 级 数 增长 ,信息 需求 是 真正 的 动因 。 
但 是 对 信息 用 户 个 体 而 言 , 其 明确 的 信息 需求 分 析 , 不 仅 是 信息 检索 过 程 中 最 首要 的 环 
节 , 也 是 高 效率 开展 检索 活动 且 成 功 满 足 信 息 需求 的 前 提 。 它 包括 分 析 信 息 需 求 的 主题 
内 容 、 所 涉及 的 学 科 范 围 . 所 需 信息 的 资源 类 型 .涵盖 的 具体 时 间 段 ,检索 的 成 本 开销 、 可 
用 信息 资源 范围 检索 技术 手段 的 可 行 性 与 利用 信息 的 目的 与 要 求 等 内 容 。 尽 管 在 信息 
化 的 今天 ,人 们 对 信息 检索 策略 的 反应 迅速 而 果断 ,但 是 信息 需求 分 析 的 前 提 性 作用 及 其 
需求 分 析 的 逻辑 性 要 求 是 不 可 缺少 的 。 

2. 选择 检索 工具 或 检索 系统 

在 现代 信息 检索 过 程 中 ,正确 地 选择 检索 工具 或 检索 系统 对 顺利 完成 检索 任务 、 保 证 
检索 质量 是 至 关 重 要 的 。 在 选择 检索 的 资源 对 象 时 ,应 注意 选择 资源 的 学 科 和 专业 范围 ， 
数据 库存 储 的 资源 类 型 ,信息 时 效 年 限 与 更 新 周期 ,数据 库 描述 信息 内 容 的 质量 、 检 索 入 
口 和 检索 语种 等 内 容 。 

检索 工具 的 种 类 繁多 ,其 信息 类 型 .学科 和 专业 的 收录 范围 各 有 侧重 ,所 以 应 根据 需 
求 课题 的 检索 要 求 , 尽 可 能 准确 而 全 面 地 把 握 检 索 工具 。 检 索 工具 的 选择 通常 有 两 种 方 
法 : 第 一 ,专业 性 检索 工具 选择 ,例如 直接 选择 “博士 学 位 论文 数据 库 ” 或 “专利 数据 库 ” 
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等 ;第 二 ,通用 型 或 集成 性 检索 工具 选择 ,例如 图 书馆 跨 库 集成 检索 系统 或 综合 性 网 络 搜 
索引 擎 的 应 用 。 

3. 选择 检索 方法 和 检索 入 口 

一 般 来 说 ,数据 库 等 信息 检索 工具 都 提供 了 多 种 检索 方法 或 辅助 索引 工具 ,例如 顺 查 
法 、 倒 查 法 和 抽查 法 等 检索 方法 (检索 工具 大 多 依据 信息 的 生成 时 间 可 供用 户 分 区 或 提供 
辅助 索引 查询 功能 ) ;同时 ,也 提供 了 多 个 检索 入 口 ,例如 初级 检索 ,高 级 检索 .专业 检索 等 
多 个 检索 入 口 与 相应 的 用 户 操 作 界 面 ,包括 许多 搜索 引擎 也 提供 了 简单 检索 、 高 级 检索 、 
特殊 检索 等 检索 入 口 。 

对 于 大 多 数学 生 而 言 ,应 用 “初级 检索 ”去 查询 信息 的 情况 较 普遍 ,而 “高 级 检索 ”或 
“专业 检索 ”的 应 用 较 少 ,这 表明 学 生 信 息 检 索 技 能 缺乏 ,方法 应 用 不 当 , 信 息 检索 效率 与 
质量 不 高 。 

初级 检索 也 称 “ 傻 瓜 式 检 索 ”, 是 针对 各 种 层次 的 全 部 信息 用 户 而 言 的 (例如 搜索 引 
擎 ) ,所 以 各 种 检索 工具 的 初始 检索 界面 一 律 都 是 “傻瓜 式 检索 ”界面 。 初 级 检索 或 简单 检 
索 易 学 易 用 、 简 单 明 确 、. 界 面 清晰 ,但 其 检索 速度 最 慢 ,信息 查 准 率 最 低 , 因 此 信息 用 户 得 
选 和 评价 检索 结果 的 工作 量 大 ,大 量 的 不 相关 信息 干扰 甚至 误导 用 户 的 信息 评价 与 选择 。 

高 级 检索 或 专业 检索 一 般 会 给 出 较 多 的 检索 项 供用 户 拟定 能 够 准确 反映 信息 需求 的 
“逻辑 检索 表达 式 ”。 高 级 检索 有 时 也 称 为 逻辑 组 配 式 检索 ,有 利于 信息 用 户 综合 应 用 各 
种 检索 运算 符 或 操作 命令 精确 地 构造 和 表达 信息 需求 。 图 4-12 是 某 高 校 图 书 检索 系统 
的 高 级 检索 界面 实例 ,但 该 高 级 检索 界面 的 应 用 统计 占 比 为 1. 13%。 

4. 确定 检索 途径 

在 信息 需求 分 析 的 基础 上 ,选择 好 信息 检索 工具 并 确定 检索 入 口 后 ,需要 进一步 明确 
检索 途径 。 常 用 的 检索 途径 有 表达 信息 内 容 特征 的 分 类 、 主 题 ,关键 词 途径 等 ,也 有 表达 
信息 外 表 特 征 的 题名 、 著 者 、 机 构 、 时 间 等 途径 。 应 注意 将 多 种 信息 检索 途径 进行 组 配 或 
逻辑 组 合 使 用 ,以 达到 更 好 的 高 级 检索 效果 和 提高 信息 查 准 率 目 的 。 

5. 检索 策略 调整 

“检索 ”功能 或 “搜索 ”功能 操作 执行 后 ,如 果 对 检索 结果 不 太 满 意 , 应 及 时 调整 检索 策 
咯 。 调 整 检 索 策 略 时 ,常常 要 利用 数据 库 的 检索 限制 条 件 、 模 糊 / 精 确 匹 配 检索 、 二 次 检索 
等 功能 ,提高 查 准 率 和 查 全 率 , 直 到 满意 为 止 。 

如 果 第 一 次 检索 出 来 的 结果 信息 不 充分 ,需要 扩大 检索 范围 ,这 时 调整 检索 策略 的 方 
法 有 以 下 几 种 : 四 减少 逻辑 与 算 符 (and) ,增加 同义词 或 同族 相关 词 ,用 逻辑 或 算 符 Cor) 
将 它们 连接 起 来 ; @ 在 主题 词 或 关键 词 相同 的 词 后 使 用 截 词 符 "?” 进 行 扩展 ; @ 去 除 已 有 
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您 当前 位 置 为 :首页 一 济 级 检索 


检索 途径 : 书 名 图 料 索 


出 版 年 


区 
| 
区 


出 版 社 
主题 司 
分 类 号 
ISBN 号 
责任 者 
文献 类 型 ， 全 
排序 选项 
排序 方式 


每 页 显示 


图 4-12 某 高 校 图 书 检索 系统 的 高 级 检索 界面 


的 字段 限制 位置 算 符 限制 (或 改 用 限制 程度 较 小 的 位 置 算 符 )、 时 间 约 束 、 信 息 源 约束 ( 例 
如 由 限定 图 书 扩展 到 期 刊 设置 网 页 ) 等 。 

如 果 检 索 出 来 的 结果 信息 太 多 ,干扰 了 信息 筛选 ,可 以 考虑 增加 限制 条 件 来 缩小 检索 
范围 ,这 时 调整 检索 策略 的 方法 有 以 下 几 种 : 减少 同义词 或 同族 相关 词 ; @ 增 加 限制 概 
念 ,用 人 逻辑 与 (and) 将 它们 连接 起 来 ; @@ 使 用 字段 限制 ,或 者 限制 检索 词 在 指定 的 基本 字 
段 出 现 ,或 者 指定 辅助 字段 ,限制 结果 的 文献 类 型 .语种 或 出 版 国 限定 等 ; @ 使 用 适当 的 
位 置 算 符 ; 加 使 用 逻辑 非 (not) 算 符 , 排 除 无 关 概 念 ; @ 在 结果 中 进行 “二 次 检索 ”; @ 构 


4.8 信息 检索 质量 与 评价 
信息 检索 质量 与 评价 是 指 检索 系统 或 检索 工具 实施 信息 检索 的 有 效 程度 , 它 反映 了 


用 户 的 信息 检索 技能 、 检 索 工 具 与 检索 系统 的 性 能 及 其 信息 服务 质量 。 前 文中 多 次 出 现 
的 查 全 率 和 查 准 率 概念 ,就 是 信息 检索 质量 与 评价 的 重要 指标 。 
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4.8.1 信息 检索 质量 与 评价 指标 

反映 信息 检索 质量 的 因素 主要 有 查 全 率 (recall ratio) 、 查 准 率 (pertinence ratio) ` 漏 
检 率 (omission ratio)、 误 检 率 (noise ratio) 以 及 新 颖 率 、 检 索 速 度 等 。 

1. 查 全 率 

查 全 率 又 称 检 全 率 或 命中 率 , 是 指 检 索 出 的 相关 信息 量 与 检索 系统 或 检索 工具 中 的 
相关 信息 总 量 的 百分比 。 它 是 衡量 信息 检索 系统 或 检索 工具 检索 出 相关 信息 能 力 的 重要 
尺度 ,定义 为 


_ 检 出 的 相关 信息 量 、、，、， 
查 全 率 一 系统 中 相关 信息 总 量 ~100%”% 


2. 查 准 率 
查 准 率 又 称 检 准 率 或 相关 率 , 是 指 检索 出 的 相关 信息 量 与 检索 出 的 信息 总 量 的 百 分 
比 。 它 是 衡量 信息 检索 系统 或 检索 工具 的 精确 度 的 指标 ,可 以 定义 为 


L 1 > 住 自 
i 
3. 漏 检索 
漏 检 率 又 称 漏 检 概 率 , 是 指 未 检索 出 的 相关 信息 量 与 检索 系统 中 相关 信息 总 量 的 百 
分 比 。 它 是 与 查 全 率 相 对 应 的 概念 , 即 “ 漏 检 率 二 100% 一 查 全 率 ”。 漏 检 率 是 衡量 信息 检 
索 系 统 漏 检 信 息 的 尺度 ,可 以 定义 为 


， ，，_ 未 检 出 的 相关 信息 量 、 ，， 
漏 检 率 一 系统 中 相关 信息 总 量 欠 100 人 5 


4. 误 检 率 

误 检 率 又 称 检索 噪声 ,是 指 检索 出 结果 中 不 相关 信息 量 占 检索 出 信息 量 的 百分比 。 
它 是 与 查 准 率 相对 应 的 概念 , 即 * 误 检 率 一 100%% 一 查 准 率 "。 误 检 率 是 衡量 信息 检索 系统 
误 检 信 息 的 程度 的 指标 ,可 以 定义 为 

误 检 这 一 “办 站 的 介意 在 虹 二 x100% 

根据 有 关 实 验 表明 , 查 全 率 与 查 准 率 是 成 反比 关系 的 ,是 相互 制约 的 。 一 般 认为 ,一 
个 检索 系统 或 检索 工具 的 查 全 率 在 60% 一 70%% , 查 准 率 在 40% 一 50%% 即 能 满足 用 户 信息 
需要 ,100% 只 是 理论 上 的 标准 ,在 实际 检索 活动 与 检索 系统 中 不 可 能 达到 这 一 理想 状态 。 

5. 新 颖 率 与 检索 速度 

新 颖 率 指 的 是 在 检索 结果 中 最 新 信息 所 占 的 比重 。 其 中 “最 新 信息 ”一 般 指 所 需 信息 
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中 最 近 一 段 时 间 ( 例 如 最 近 一 个 月 、 最 近 一 个 季度 或 最 近 一 年 ) 的 信息 。 


__ 最 新 信息 量 _、 i100 
新 颖 素 一 乔 出 的 信息 总 量 X100% 


检索 速度 也 称 为 检索 反应 时 间或 检索 响应 时 间 , 它 是 用 户 拟定 信息 需求 主题 .确定 检 
索 方法 与 途径 .选择 检索 工具 或 检索 系统 对 象 . 检 索 工 具 或 系统 的 数据 处 理 和 网 络 反馈 传 
输 .用户 筛 选 和 提取 所 需 信息 等 过 程 的 时 间 总 和 。 检 索 速 度 与 信息 用 户 的 检索 素养 和 检 
索 系 统 的 处 理 与 反馈 性 能 密切 相关 。 


4.8.2 影响 检索 效果 的 因素 

查 全 率 与 查 准 率 是 评价 检索 效果 的 两 项 重要 指标 。 它 们 与 信息 资源 的 存储 与 检索 两 
个 方面 直接 相关 , 即 与 系统 的 信息 采集 范围 .标识 规范 、 标 引 工 作 和 检索 工作 等 都 有 着 非 
常 密切 的 关系 。 

1. 影响 查 全 率 的 因素 

从 信息 存储 的 角度 ,影响 查 全 率 的 因素 有 以 下 几 个 。 

(1) 影响 查 全 率 的 因素 主要 有 检索 系统 采集 信息 的 范围 有 限 。 

(2) 检索 系统 不 具备 截 词 和 信息 自 反 馈 功 能 或 自 适应 能 力 较 低 ,建立 索引 的 方法 不 
(3) 主题 词 或 关键 词 结构 体系 不 完整 ,词汇 缺乏 深入 控制 和 专 指 性 , 词 间 关系 模糊 或 
不 正确 。 

(4) 信息 的 人 工 标识 或 自动 标识 质量 不 高 ,出 现 标识 前 后 不 一 致 或 标识 工作 人 员 遗 
漏 了 重要 概念 或 用 词 不 当 等 情况 。 

从 信息 检索 过 程 来 看 ,其 影响 因素 主要 有 以 下 几 个 。 

(1) 信息 用 户 的 信息 检索 素养 不 高 。 

(2) 检索 策略 过 于 简单 。 

(3) 选择 主题 词 或 关键 词 及 其 逻辑 组 配 不 当 。 

(4) 使 用 的 检索 途径 和 方法 太 少 。 

(5) 依赖 初级 检索 过 多 ,不 能 全 面 地 描述 检索 需求 等 。 

2. 影响 查 准 率 的 因素 

影响 查 准 率 的 因素 主要 有 以 下 几 个 。 

(1) 检索 式 中 “逻辑 或 ?的 使 用 或 者 “ 截 词 ?部 位 (包括 前 截 词 . 中 间 截 词 和 后 截 词 ) 
不 当 。 
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(2) 检索 系统 或 检索 工具 不 具备 逻辑 非 的 功能 、 二 次 检索 功能 。 

(3) 索引 词 不 能 准确 地 描述 信息 主题 词 和 关键 词 及 它们 之 间 的 良好 层次 关系 。 

(4) 检索 时 所 用 检索 词 ( 或 检索 式 ) 的 专 指 度 不 强 , 检 索 面 过 宽 , 选 词 及 词 间 关 系 不 
正确 。 

(5) 信息 标识 过 于 详尽 ,组 配 规则 不 严密 或 出 现 逻 辑 错误 等 。 

实际 上 ,影响 检索 效果 的 因素 是 非常 复杂 的 。 要 想 达 到 较 高 的 查 全 率 ,势必 需要 对 检 
索 范围 和 一 些 限制 条 件 逐 步 放宽 ,其 结果 是 会 把 很 多 不 相关 的 信息 也 带 入 数据 库 系统 , 影 
响 了 查 准 率 。 要 想 同 时 提高 查 全 率 和 查 准 率 是 不 容易 的 ,而 强调 一 方面 .忽视 男 一 方面 也 
是 不 妥当 的 。 信 息 用 户 应 当 根据 具体 的 信息 需求 ,合理 地 调节 查 全 率 和 查 准 率 ,以 保证 获 
得 更 好 的 检索 质量 。 

3. 提高 信息 检索 质量 的 措施 

提高 查 全 率 的 措施 通常 有 以 下 几 种 。 

(1) 使 用 泛 指 度 较 强 的 检索 主题 词 或 关键 词 ( 如 上 位 簇 首 词 或 上 位 主题 词 )。 

(2) 将 待 检索 的 信息 需求 中 同一 概念 面 的 同义词 ,近义词 及 相关 概念 充分 列举 ,并 用 
布尔 运算 符 逻 辑 或 进行 组 配 。 

(3) 使 用 截 词 符 “? 或" * ”。 

(4) 改变 检索 项 ,例如 当 要 求 检 索 词 位 于 标题 中 或 为 关键 词 或 主题 词 时 , 检 出 的 记录 
数 就 会 比较 少 ,这 时 可 改 为 要 求 检索 词 位 于 摘要 或 全 文中 ,检索 出 的 信息 数量 即 可 增加 。 

(5) 减少 限制 条 件 ,增加 近似 检索 项 。 

提高 查 准 率 的 措施 通常 有 以 下 几 种 。 

(1) 使 用 专 指 性 较 强 的 检索 主题 词 或 关键 词 (如 下 位 类 或 下 位 主题 词 ) 。 

(2) 增加 检索 词 之 间 的 互相 限定 ,并 用 布尔 运算 符 " 逻 辑 与 ”进行 组 配 。 

(3) 少 使 用 截 词 符 ” * ”或 “?”。 

(4) 改变 检索 项 。 例 如 , 当 要 求 检索 词 位 于 摘要 或 全 文中 时 ,检索 出 信息 数量 较 多 ， 
则 可 改 为 要 求 检索 词 位 于 标题 中 。 

(5) 缩减 信息 的 时 间 范 围 .语种 、 国 别 或 信息 源 属性 (期 刊 .论文 .标准 等 ) 范 围 等 的 限 
制 条 件 。 

(6) 选择 专业 性 高 且 权 威 性 强 的 检索 系统 与 检索 工具 ,例如 专利 数据 库 、 优 秀 博 士 学 
位 论文 数据 库 、 美 国 的 SCI 等 。 
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本 章 小 结 


信息 源 也 就 是 我 们 在 检索 过 程 中 经 常 接触 到 的 不 同 信息 集合 或 者 不 同 检索 对 象 实 
体 , 也 就 是 我 们 获得 原始 信息 内 容 的 来 源 。 依 据 信息 内 容 的 加 工 层次 划分 ,信息 源 范围 包 
括 零 次 信息 源 , 一 次 信息 源 、 二 次 信息 源 \ 三 次 信息 源 。 信 息 源 的 出 版 发 行 与 共享 类 型 主 
要 有 图 书 、 期 刊 . 会 议 文献 .科技 报告 .专利 文献 ,学 位 论文 .技术 标准 、 政 府 出 版 物 、 产 品 样 
品 和 说 明 书 ,技术 档案 ,报纸 等 ,要 注意 这 些 外 文 信息 源 的 准确 识别 与 利用 。 

信息 检索 工具 是 以 压缩 形式 存储 、 报 道 和 查找 信息 线索 或 原始 信息 全 文 的 工具 , 它 是 
经 过 对 信息 进行 搜索 整理 ,特征 分 析 和 组 织 加 工 后 的 产物 ,同时 又 是 信息 检索 的 主要 手段 
和 条 件 。 它 包括 传统 的 检索 工具 ,例如 科学 引文 索引 SCI; 也 包括 网 络 检索 工具 ,例如 
Baidu 等 。 信 息 检 索 工 具 的 主要 功能 表现 在 存储 和 检索 两 个 方面 。 信 息 报道 及 时 、 全 面 ， 
存储 规范 、 有 序 以 及 检索 迅速 和 准确 是 对 检索 工具 的 基本 要 求 。 

信息 检索 工具 主要 有 目录 索引、 文摘 .参考 工具 书 和 搜索 引擎 。 信 息 检索 途径 多 种 
多 样 ,其 中 表明 信息 外 部 特征 的 相关 途径 有 标题 责任 者 (或 作者 与 发 布 者 )、 产 生机 构 、 序 
号 ,信息 来 源 、 产 生 时 间 、 范 围 . 路 径 、 点 击 量 或 访问 量 等 途径 ;与 信息 内 容 特 征 相 关 的 途径 
有 学 科 分 类 、 主 题 和 关键 词 . 内 容 代码 (例如 化 学 分 子 式 、 图 像 色 彩 等 ) 等 途径 。 信 息 检 索 
方法 主要 有 顺 查 法 , 倒 查 法 .抽查 法 、 引 文法 .综合 法 .浏览 法 等 。 

信息 检索 策略 ,是 指 用 户 在 信息 需求 分 析 的 基础 上 拟定 恰当 的 检索 方案 ,为 检索 过 程 
提供 潜在 或 快速 的 指导 ,其 目的 是 为 了 优化 检索 过 程 ,提高 检索 效率 ,人 全面、 准确、 快速 、 低 
成 本 地 检索 到 所 需 信息 。 信 息 检索 策略 一 般 包 括 信息 需求 分 析 、 选 择 相关 信息 资源 ,构造 
检索 表达 式 .选择 检索 方法 进行 操作 、 对 检索 结果 评价 和 对 检索 策略 进行 调整 等 过 程 。 

信息 检索 质量 与 评价 是 指 检索 系统 或 检索 工具 实施 信息 检索 的 有 效 程度 , 它 反映 了 
用 户 的 信息 检索 技能 、 检 索 工 具 与 检索 系统 的 性 能 及 其 信息 服务 质量 ,其 中 查 准 率 和 查 全 
率 是 主要 的 评价 指标 。 


本 章 思 考 与 练习 题 


1. 信息 内 容 的 加 工 层 次 划分 有 哪些 信息 源 ? 分 别 举例 说 明 。 
2. 查询 并 举例 下 列 信息 源 : 图 书 、 期 刊 、 会 议 文献 科技 报告 .专利 文献 ,学 位 论文 、 技 
术 标 准 。 
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. 分 别 举例 说 明 英文 信息 源 如 何 辩 别 。 
. 用 图 示 说 明 检 索 工 具 的 含义 。 
. 常用 的 检索 工具 有 哪些 ?分别 举 例 。 
. 信息 检索 有 哪些 主要 途径 ? 分 别 举例 。 
. 信息 检索 有 哪些 主要 方法 ? 
. 用 图 示 说 明 信 息 检索 一 般 策 略 。 
. 信息 检索 质量 有 哪些 评价 指标 ? 请 举例 说 明 。 
10. 良好 的 信息 检索 方法 与 策略 对 信息 检索 素养 的 形成 有 何 作用 ? 


oo 门 宁 馈 上 呈 


第 二 部 分 
信息 检索 素养 基本 原理 篇 


本 部 分 包括 6 章 内 容 ( 第 5 章 至 第 10 章 ), 从 信息 检索 的 基本 原理 即 信 息 
检索 的 主要 内 在 工作 机 制 与 技术 方法 以 及 依据 的 数学 逻辑 知识 等 内 容 ,来 进 
一 步 培养 大 学 生 的 信息 检索 素养 。 大 学 生 在 信息 检索 与 利用 过 程 中 ,无 论 是 
基于 普通 的 “初级 检索 ”( 基 本 检索 、 一 般 检 索 或 通用 检索 等 ), 还 是 基于 较 高 检 
索 需 求 的 “高 级 检索 ”( 复 合 检索 、 主 题 式 检索 或 复杂 人 逻辑 检索 等 ), 其 至 是 针对 
性 强 和 专业 性 要 求 高 的 “专业 检索 ”( 专 门 检索 或 专家 检索 等 ), 都 需要 学 习 和 
掌握 信息 检索 基础 数学 原理 、 文 本 分 类 与 文本 索引 构建 、 图 像 信息 检索 、 音 频 
信息 检索 、 视 频 信息 检索 和 Web 信息 搜索 等 基础 理论 知识 。 第 二 部 分 的 学 习 
与 掌握 ,不 仅 是 当代 大 学 生 ( 尤 其 是 研究 生 ) 信 息 检 索 素养 教育 的 重要 内 容 , 也 
是 大 学 生 与 其 他 社会 群体 的 信息 检索 素养 相互 区 别 的 重要 内 容 。 

第 5 章 “ 信 息 检索 的 基础 数学 原理 ”的 引入 ,使 得 信息 检索 有 了 更 加 严谨 
的 座 辑 论证 ,检索 过 程 和 信息 需求 的 本 质 描 述 也 更 为 精确 ,从 而 使 得 信息 检索 
的 理论 与 实践 获得 持续 性 的 基础 支撑 。 内 容 包 括 布尔 检索 、 检 索 的 检索 模糊 
集合 论 、 扩 展 布尔 检索 、 信 息 检索 向 量 空间 模型 、 潜 在 语义 索引 模型 、 神 经 网 络 
检索 模型 、 概 率 论 检索 模型 .检索 粗糙 集 理论 、 检 索 遗 传 算法 等 。 

第 6 章 论 述 了 文本 分 类 与 文本 索引 构建 。 文 本 分 类 (text categorization， 
TC) 又 称 为 文本 自动 分 类 , 它 是 信息 检索 和 文本 数据 挖掘 的 重要 基础 。 文 本 


94 /大 学 生 信息 检索 素养 教程 


自动 分 类 能 较 好 地 解决 大 量 文档 信息 归 类 问题 并 应 用 到 很 多 信息 领域 。 文 档 
是 建立 各 种 文本 型 检索 数据 库 的 基础 ,从 组 织 形式 上 划分 ,文档 可 以 分 为 顺 排 
文档 (sequential file) 和 倒 排 文档 (inverted file) 两 种 。 倒 排 文档 就 是 把 顺 排 文 
档 中 具有 检索 属性 的 项 目 信息 抽取 出 来 ,重新 排列 组 织 成 新 的 数据 文档 ,在 很 
多 数据 库 中 被 称 为 索引 文档 。 

第 7 章 、 第 8 章 和 第 9 章 分 别 阅 述 了 图 像 信 息 检 索 、 音 频 信息 检索 和 视频 
信息 检索 的 基础 性 原理 。 随 着 因特网 和 移动 互联 网 的 快速 发 展 ,数据 量 庞大 
的 图 像 、 音 频 和 视频 等 多 媒体 信息 资源 日 益 成 为 网 络 用 户 的 重要 查询 与 利用 
对 象 。 与 传统 基于 文本 的 信息 检索 原理 不 同 ,图 像 、 音 频 和 视频 等 多 媒体 信息 
资源 主要 是 基于 内 容 的 信息 检索 ,而 且 基 于 内 容 的 多 媒体 信息 检索 的 检索 精 
度 也 要 高 得 多 ,因此 备 受 重视 而 成 为 大 学 生 信 息 检 索 素养 教育 不 可 或 缺 的 主 
要 内 容 。 

第 10 章 论述 了 Web 信息 搜索 的 一 般 性 原理 。Web 是 WWW( 万 维 网 ) 的 
简称 , 它 是 Internet 最 基本 、 最 广泛 的 应 用 服务 ,也 是 最 主要 的 信息 资源 类 型 。 
对 于 信息 社会 和 网 络 时 代 的 信息 用 户 而 言 ,直接 面 对 的 Web 信息 获取 工具 就 
是 网 络 搜 索引 擎 ,Google、Baidu 等 搜索 引擎 是 Web 信息 采集 与 搜索 的 典型 
代表 。 
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由 于 当今 信息 量 呈 几何 级 数 膨胀 和 用 户 信息 需求 多 样 化 发 展 趋势 ,在 检索 的 实践 活 
动 中 会 涉及 大 量 的 信息 处 理 与 存储 过 程 。 用 户 信 息 检 索 的 最 终 实现 必须 依靠 强 有 力 的 计 
算 机 应 用 程序 去 自动 执行 或 智能 信息 处 理 作 为 支撑 ,而 强 有 力 的 计算 机 应 用 程序 必须 依 
据 数学 原理 及 其 模型 方法 的 建立 为 前 提 , 利 用 数学 原理 与 模型 方法 来 建立 检索 基础 模型 
是 必 不 可 少 的 工作 。 运 用 数学 原理 不 仅 能 使 信息 检索 作为 研究 对 象 的 概念 含义 精确 化 ， 
而 且 能 够 深刻 揭示 信息 检索 过 程 的 显 性 现象 与 潜在 的 隐 性 规律 。 在 信息 检索 中 引入 数学 
原理 及 其 模型 方法 ,将 检索 过 程 中 的 信息 及 其 处 理 过 程 加 以 解释 和 抽象 ,表达 成 某 种 数学 
模型 ,再 经 演绎 与 推断 ,从 而 指导 检索 实践 和 促进 检索 工作 的 技术 进步 。 数 学 原理 及 其 模 
型 的 引入 使 得 信息 检索 有 了 更 加 严谨 的 论证 ,检索 过 程 和 信息 需求 本 质 的 描述 也 更 为 精 
确 。 迄 今 为 止 ,基于 集合 理论 的 布尔 模型 .Salton 模型 和 模糊 集合 模型 等 数学 一 般 原理 最 
为 成 熟 , 也 在 检索 实践 中 得 到 了 普遍 应 用 。 


5.1 简单 布尔 检索 


5.1.1 基本 原理 

布尔 模型 是 一 种 以 经 典 集合 论 和 布尔 代数 为 理论 基础 的 非常 简单 的 信息 检索 模型 。 
它 采 用 布尔 代数 的 方法 ,用 布尔 逻辑 表达 式 表示 用 户 需 求 提问 ,通过 对 信息 标识 和 提问 式 
的 比较 来 检索 信息 。 对 某 一 特定 的 信息 ,通常 表示 成 D 二 (44,ts，…,1,) 的 形式 。 由 于 布 
尔 逻 辑 式 可 以 表达 成 与 用 户 思维 习惯 相 一 致 的 提问 要 求 , 因 此 ,用 户 提问 可 以 表示 为 由 三 
种 逻辑 运算 符 即 逻辑 与 (* )、 逻 辑 或 (十 ) 和 逻辑 非 ( 一 ) 连 接 起 来 的 布尔 表达 式 , 标 引 词 4 
和 4 之 间 可 能 具有 的 逻辑 运算 是 4 入 vs 和 Vzs;, 而 任 一 标 引 词 的 逻辑 非 运算 为 一 1, 这 些 
逻辑 运算 将 作为 用 户 提问 的 一 部 分 出 现在 布尔 表达 式 的 某 个 位 置 上 ,图 5-1 可 以 很 直观 

显然 ,上 述 的 布尔 运算 实际 上 是 集合 之 间 的 交 、 并 、 补 运算 。 也 就 是 说 ,布尔 检索 实际 
上 是 通过 若干 个 检索 词 所 包含 的 信息 集合 的 交 、 并 、 补 运算 来 响应 用 户 信息 需求 提问 的 。 
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DC 


tAt lVb 
图 5-1 布尔 运算 逻辑 关系 图 


布尔 模型 在 解释 信息 检索 的 数据 处 理 过 程 时 ,主要 遵循 两 条 基本 规则 。 
系统 索引 词 集合 中 的 每 一 个 索引 词 在 一 篇 文档 中 只 有 两 种 状态 : 出 现 或 者 不 出 现 。 
相应 地 ,每 个 索引 词 的 权 值 wj € {0,1)。 
检索 提问 式 g 由 三 种 布尔 逻辑 运算 符 “and”“or”“not" 连 接 索引 词 来 构成 。 
根据 布尔 逻辑 的 运算 规定 ,提问 式 4g 可 以 被 表示 成 由 合 取 子 项 (conjunctive 
components) 组 成 的 析 取 范式 (disjunctive normal form ,dnf 或 DNF) 形 式 。 例 如 ,布尔 提 
问 式 
g 一 Ai and(CRz or not ks) 
可 以 写成 如 下 等 价 的 析 取 范式 形式 : 
gdnt 一 (Al and As and ks)or(k1 and As and not ka)or(k!1 and not As and not Rs) 
这 里 ,gun 为 提问 式 g 的 主 析 取 范式 。 进 一 步 地 ,可 以 用 如 下 简化 形式 来 表示 qant: 
qdua 一 (1,1,1) or (1,1,0) or (1,0,0) 
其 中 ,(1,1,1)、(1,1,0) 和 (1.0,0) 是 gux 的 三 个 合 取 子 项 ( 合 取 子 项 可 用 符号 ge 表 
示 ) ,它们 是 一 组 向 量 ,由 对 应 三 元 组 (Ai ,Az ,As ) 的 每 一 分 量 取 0 或 1 值 而 得 到 。 
基于 上 述 规则 与 假定 ,布尔 模型 对 于 任 一 篇 文档 d; ED, 定 义 dj 与 用 户 提问 4 的 匹配 
函数 为 
1, 如 果 存 在 ge | (ge € qu) 且 对 于 任意 ,有 gi(d;) 一 gi(qe) 
sim(d;,qg) = 
1, 其 他 
(5=1) 
式 (5-1) 中 ,函数 g; 定义 为 g;(dj) 二 wj;。 现 在 ,假设 文档 集合 D 中 存在 两 篇 文档 4d， 和 
d; ,其 中 ,di 含有 索引 词 & 和 ks,ds 含有 索引 词 和 和 ks, 则 它们 的 文档 向 量 分 别 为 
di = (1,1.0) 
d; = (1.0,.1) 
根据 匹配 函数 sim(d ,9g) 的 定义 ,很 显然 文档 di 与 提问 式 gq 二 kiand(ks or not ks) 的 
匹配 函数 值 为 1, 即 文档 di 与 提问 g 是 相关 的 ;而 文档 d; 与 提问 dg 的 匹配 函数 值 为 0, 表 
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明文 档 d; 与 提问 q 是 不 相关 的 。 


5.1.2 布尔 检索 模型 的 特点 

布尔 模型 是 最 早 提出 的 一 种 信息 检索 一 般 数 学 模型 。1957 年 , 巴 ， 和希 列 尔 (Y. Bar- 
Hille) 就 对 布尔 逻辑 应 用 于 计算 机 信息 检索 的 可 能 性 进行 了 探讨 ;20 世纪 60 年 代 末 期 ， 
布尔 检索 模型 正式 被 大 型 文献 检索 系统 所 采用 ;70 年 代 时 逐渐 成 为 各 种 商业 性 联机 检索 
服务 系统 的 标准 检索 模式 。 目 前 ,基于 布尔 检索 框架 的 各 类 检索 系统 仍 具有 顽强 的 生命 
力 , 并 在 信息 搜索 与 信息 服务 领域 占据 重要 地 位 。 

在 布尔 检索 中 ,用 户 的 查询 要 求 用 普通 的 语言 叙述 , 即 用 户 可 完全 按照 自己 的 思维 习 
惯 提问 。 其 中 查询 要 求 (条件 )A、B、C、D 等 可 以 分 别 用 若干 个 标 引 词 来 表示 ,然后 可 以 用 
布尔 逻辑 运算 符 “V”“ 人 人”“ 一 ”将 用 户 的 提问 “解析 ”成 信息 服务 系统 可 以 接受 的 形式 。 
这 种 结构 化 的 提问 方式 与 用 户 的 思维 习惯 相 一 致 ,所 以 成 为 布尔 逻辑 检索 的 一 个 突出 优 
点 。 布 尔 检索 的 一 个 用 户 界面 实例 如 图 5-2 所 示 。 


去 
EA 


ProQuest 学 位 论文 全 文 检索 平台 


CALIS| 


欢迎 使 用 ! 首页 >> 高 饥 检 索 


你 所 在 的 位 置 是 : 
A 检索 符合 以 下 条 件 的 论文 
相关 链接 标题 国 包 3 以 | 所 有 词 国 并 且 园 
自 中 国 高 等 教育 文献 摘要 ” 国 包 人 以 下 [所 有 词 国 或 者 国 
保障 采 统 学 科 “ 国 包 人 BT | 法 ][# 国 
MQ ProQuest 包 全 以 下 | 所 有 词 国 | 或 者 国 | 
| 和 Et 
包 合 以 下 [所 有 词 国 并 且 国 | 
Et 包 人 以 下 [所 有 词 国 | 


来 源 上 ES 
iseN |] 到] 
出 版 号 j 限 人 博士 口 硕士 

语种 : [全 部 ” 国 

显示 : @ 全 部 个 只 显示 有 全 文 的 结果 


检索 
图 5-2 布尔 检索 实例 图 (以 ProQuest 为 例 ) 


以 ProQuest 为 例 , 图 5-2 布尔 检索 实例 图 中 的 “并 且 ”“ 或 者 ”与 “排除 ”运算 ,就 是 典 
型 的 布尔 检索 应 用 。 这 种 模型 把 复杂 的 检索 过 程 简单 化 ,能 够 将 比较 复杂 的 信息 提问 按 
其 概念 组 配 的 逻辑 关系 描述 出 来 ,从 而 变 成 可 以 由 计算 机 执行 的 逻辑 运算 , 变 成 机 器 根据 
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事先 确定 的 程序 进行 自动 匹配 的 过 程 ,这 种 运算 上 的 简单 易 行 是 布尔 逻辑 检索 系统 的 突 
出 优势 。 

布尔 模型 具有 简单 性 (simplicity)、 容 易 理 解 性 (easy understanding)、 简 洁 形 式 化 
(clean formalism) 等 突出 优点 。 布 尔 模型 的 简单 性 、. 易 理解 性 与 易 实现 等 特点 为 其 在 检 
索 系统 和 检索 工具 中 的 广泛 应 用 奠定 了 良好 基础 。 尽 管 布尔 模型 有 着 种 种 优点 ,但 它 还 
是 存在 明显 的 局 限 性 。 

(1) 布尔 模型 是 基于 二 值 判定 为 标准 的 ,信息 对 象 要 么 相关 ,要 么 不 相关 ,并 没有 一 
个 相关 信息 级 别 的 概念 ,例如 符合 信息 需要 的 相关 性 程度 大 小 ,因此 很 难 有 好 的 检索 
效果 。 

(2) 构造 布尔 逻辑 式 不 是 一 件 轻松 的 事情 ,对 于 普通 信息 用 户 , 很 难 用 AND( 逮 辑 
与 ) \.OR( 逮 辑 或 )` NOT( 逻 辑 非 ) 运 算 的 结合 来 准确 地 表达 自己 的 信息 需求 ,并 且 检 索 词 
的 简单 组 配 也 不 能 完全 反映 实际 需要 。 

(3) 检索 结果 输出 完全 依赖 于 布尔 提问 与 检索 系统 中 信息 的 匹配 情况 ,很 难 控制 输 
出 量 的 大 小 。 

(4) 布尔 提问 表示 存在 某 些 不 合理 的 地 方 。 对 于 “V ”提问 ,包含 一 个 在 提问 中 出 现 
的 检索 词 的 信息 与 包含 几 个 在 提问 中 出 现 的 标 引 词 的 信息 被 认为 是 一 样 的 重要 ; 对 于 
“人 ”提问 ,包含 多 个 标 引 词 的 信息 与 不 包含 任何 标 引 词 的 信息 被 看 成 是 一 样 不 相关 。 

(5) 检索 结果 不 能 按 用 户 定义 的 重要 性 排序 输出 ,用 户 只 能 从 头 到 尾 浏 览 输出 结果 
才能 知道 哪些 信息 更 适合 自己 的 需要 。 

鉴于 布尔 模型 的 这 些 不 足 , 人 们 提出 用 语词 加 权 和 部 分 匹配 的 功能 来 扩展 经 典 的 布 
尔 模型 ,将 向 量 模型 和 布尔 模型 融 为 一 体 ,来 克服 传统 布尔 模型 的 一 些 缺陷 ,这 就 是 扩展 
布尔 模型 。 


5.2 信息 检索 模糊 集合 论 


信息 检索 模糊 集合 模型 是 建立 在 模糊 集合 论 基础 上 的 ,模糊 集合 论 可 以 看 做 是 经 典 
集合 论 的 推广 。1965 年 美国 加 州 大 学 伯克利 分 校 的 札 德 (LA. Zadeh) 教 授 发 表 了 一 篇 关 
于 “模糊 集合 ”的 著名 论文 ,由 此 奠定 了 模糊 理论 的 研究 与 发 展 。 

模糊 集合 论 对 经 典 集合 论 的 推广 主要 表现 在 : 它 把 元 素 属于 集合 的 概念 模糊 化 , 承 
认 集 合 论 范围 内 存在 既 不 完全 属于 某 集合 ,又 不 完全 不 属于 某 集合 的 元 素 , 即 变 经 典 集合 
论 “ 绝 对 的 属于 ”概念 为 “相对 的 属于 ”概念 ;同时 ,又 进一步 把 属于 概念 数量 化 ,承认 论 域 
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上 的 不 同 元 素 对 于 同一 集合 具有 不 同 的 隶属 程度 ,因此 引入 了 隶属 度 C(membership) 的 

模糊 集合 理论 处 理 的 是 边界 不 明确 的 集合 表示 ,其 中 心思 想 是 把 集合 中 的 元 素 和 隶 
属 函 数 结合 在 一 起 。 隶 属 函数 的 取 值 在 L 0,1] 上 ,0 表示 元 素 不 隶属 于 该 集合 ,1 表示 完 
全 隶属 于 该 集合 , 值 在 0 和 1 之 间 表 示 元 素 为 该 集合 的 边际 元 素 。 

定义 : 给 定论 域 U,U 的 模糊 子 集 A 可 以 定义 为 U 到 闭 区 间 [L0,1] 上 的 一 个 映射 : 
LA: U>[0,1],LA 为 A 的 隶属 度 。 正 如 经 典 集合 论 是 传统 精确 数学 的 基础 一 样 ,模糊 
子 集 论 是 模糊 理论 的 基础 ,同样 也 可 以 定义 模糊 子 集 上 的 运算 。 常 见 的 三 种 运算 分 别 是 
模糊 集合 的 补 运 算 、 两 个 或 多 个 集合 的 并 、 交 运算 。 

定义 : 给 定论 域 U,A 和 B 分 别 为 U 的 两 个 模糊 子 集 ,A 一 是 A 关于 U 的 补 集 ,4 为 
U 中 的 元 素 , 则 


MD 一 1 一 和 (0) 
pa U Ba) = max (Ap (1u) » ps (u)) 
4 NM BO) = min (po (1) » ps Ca ) 


5.2.1 模糊 检索 的 数学 描述 
模糊 检索 是 将 信息 文档 看 成 是 与 提问 在 一 定 程度 上 相关 ,对 于 每 一 个 标 引 词 ,都 存在 
一 个 模糊 的 信息 集合 与 之 相关 ;对 于 某 一 给 定 的 标 引 词 ,用 隶属 函数 表示 每 一 则 信息 文档 
与 该 词 相关 的 程度 , 即 隶 属 度 ,其 取 值 在 [0,1] 上 , 则 有 信息 文档 d 和 标 引 词 1,d 对 于 1 的 
隶属 度 可 以 定义 为 
pe:DXT— [00,1], 
(dl) >pr(ds) Vd EDxT 
则 在 信息 检索 系统 中 文档 4 与 标 引 词 上 的 二 元 模糊 关系 下 可 以 描述 为 
F= {[(d,t) ,ur(d,t)Jd € D,t € TT) (5-2) 
由 于 用 户 通 常 希望 检索 出 的 信息 能 较 高 地 满足 其 需求 主题 ,因此 ,这 里 所 定义 的 
入 (Cd 表示 文献 d 涉及 标 引 词 1 所 达到 的 程度 ,而 不 是 标 引 词 1 反映 文献 4 的 主题 内 容 
的 程度 。 
标 引 词 的 模糊 集合 是 在 标 引 过 程 中 建立 的 , 标 引 人 员 不 是 简单 地 把 标 引 词 赋予 信息 
文档 ,还 要 指出 标 引 词 与 信息 文档 的 相关 程度 。 如 d 二 {(4,0.5), (zs,0. 8)) ,数字 0.5 和 
0. 8 表示 信息 文档 对 于 标 引 词 t,ts 的 隶属 度 ,数值 越 大 表示 隶 属 度 越 大 。 当 全 部 信息 文 
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档 标 引 完毕 ,也 就 为 每 个 标 引 词 定义 了 一 种 隶属 函数 ,指明 了 每 一 信息 文档 对 于 每 个 标 引 
词 的 相关 程度 。 

隶属 函数 是 模糊 集合 论 力 至 整个 模糊 学 的 最 基本 概念 之 一 ,正确 构造 隶属 函数 是 应 
用 模糊 学 方法 的 关键 。 由 于 隶属 度 的 确定 , 既 有 客观 性 的 一 面 ' 也 有 主观 性 的 一 面 ,因此 ， 
在 解决 实际 问题 时 ,构造 切合 实际 的 隶属 函数 至 今 还 没有 非常 满意 的 解决 方法 。 


5.2.2 信息 文档 对 标 引 词 的 隶属 度 

在 标 引 词 集合 中 ,由 于 概念 相关 的 模糊 性 ,两 个 标 引 词 在 不 同 程度 上 总 是 存在 着 语义 
上 的 关联 ,因此 ,信息 文档 对 标 引 词 的 隶属 度 是 通过 标 引 词 表 来 计算 的 。 标 引 词 表 可 以 通 
过 词 - 词 关联 和 矩阵 来 建立 ,这 个 矩阵 的 行 和 列 分 别 对 应 于 集合 中 的 标 引 词 ,矩阵 中 词 i; 和 
4 的 关联 因子 可 以 定义 为 


Civ = — (5-3) 
天 十 入 一 元 这 
式 中 ni 表示 包含 标 引 词 1; 的 信息 文档 的 数目 ,nw 表示 包含 标 引 词 i; 的 信息 文档 的 数目 ， 
则 标 引 词 : 的 模糊 集合 中 ,文献 4 的 隶属 度 : 


ur = 1—1(1—C,) (5-4) 


5.2.3 提问 检索 词 的 相关 性 描述 

用 户 提问 通常 是 由 布尔 逻辑 式 表 达 的 , 即 用 布尔 逻辑 运算 符 将 标 引 词 连 接 起 来 。 布 
尔 逻 辑 的 常用 运算 符 有 “与 ”"“ 或 "“ 非 ”, 即 人 ,V ,一 。 提 问 匹配 以 通过 引入 模糊 算 符 来 
确定 信息 文档 对 于 提问 的 相关 程度 。 设 D 为 信息 文档 集 ,Q 为 提问 集 , V4 € D,g€Q， 
QXD 上 的 模糊 关系 R: 

R= {(g,d,y(g'd)) |q€E Q,d € D} 

式 中 jy(g,d) 表 示 信 息 文档 d 对 于 提问 g 的 相关 程度 。 

根据 模糊 集合 的 运算 规则 ,将 三 个 基本 的 模糊 运算 符 分 别 定义 如 下 。 

(1) 若 g 二 aVb, 则 py(q,d) 二 max (jy(ds,a) ,pl(d,0)), 这 里 a,b6ET,p(d,a) ,yl(d,0) 分 
别 表示 信息 文档 d 论述 标 引 词 a 和 2 所 达到 的 程度 。 

(2) 车 g=aA6b, 则 jp(q,d)==min (jy(d,a) sp(d ,0b))。 

(3) 车 gq= 一 a, 则 jy(q,d)=1 一 j(d,a)。 

在 模糊 集合 检索 中 ,对 于 布尔 模型 的 用 户 信息 需求 的 处 理 通常 是 把 表达 用 户 需 求 的 
布尔 逻辑 式 转 换 成 析 取 范式 的 形式 。 例 如 ,gq 二 ts。 A (ws V 一 4.), 可 以 写成 与 之 等 价 的 析 取 
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范式 : qa 二 (1,1,1)V (1,1,0)V (1,0,0), 其 中 的 每 个 分 量 都 是 (7 ,ts ,ti) 的 一 个 二 值 加 
权 向 量 , 它 们 构成 了 qaw 的 合 取 分 量 , 用 CC; 表示 第 i 个 合 取 分 量 , 则 提问 可 以 推广 为 bp 个 
合 取 分 量 的 形式 : 
gu = CC1 V CC V … VCC， (5-5) 

计算 信息 文档 与 提问 相关 的 过 程 类 似 于 经 典 布尔 模型 中 的 计算 ,只 不 过 在 模糊 检索 
中 处 理 的 对 象 是 模糊 集合 而 不 是 普通 的 集合 。 

对 于 上 述 的 提问 g 二 ts 人 (ts V 4s),D。 表示 标 引 词 i。 在 文献 集 上 的 模糊 子 集 , 它 由 素 
属 度 大 于 既定 阐 值 的 文献 所 组 成 。 同 理 , 可 以 定义 标 引 词 i。 和:. 的 模糊 子 集 D;、D. ,由 
于 所 有 的 集合 都 是 模糊 不 确定 的 ,即使 信息 文档 4 不 包括 标 引 词 i ,该 信息 文档 也 有 可 能 
属于 集合 D。( 见 图 5-3)。 


D, 


DCCI+CCytCCs 


图 5-3 提问 g=ts。 A (4s Vt) 的 模糊 文献 集 


提问 模糊 集合 D, 是 gant 的 三 个 合 取 分 量 的 模糊 集合 的 并 运算 , 则 D, 中 信息 文档 
d 的 隶属 度 : 


EE 


(qd) 一 pccl 十 cc 十 cc d=1— |[[ 0 mye co) 
= 


=1— {py(d,o pd Dud OF} X {1—pd,an dD) —p(d,c))} 
X 人 1 一 pda)(G1 一 prCd,O))(1 一 pr(Cdc)))} 
计算 得 出 y(q,d), 它 所 反映 的 正 是 信息 文档 4 对 于 提问 g 的 相关 程度 。 所 以 ,提问 
g 可 以 定义 为 信息 文档 集合 D 上 的 一 个 模糊 子 集 : g 二 {(d,y(gq.d))1dED}。 用 户 给 定 
一 个 阅 值 +(0 志 4 过 1) ,将 小 于 4 的 项 去 掉 。 当 wd,d) 三 ) 时 ,d 作为 命中 的 信息 文档 输 
出 ,输出 可 以 采取 按照 对 提问 的 相关 程度 的 大 小 形式 排序 输出 。 通 过 控制 4 的 取 值 ,可 以 
输出 合适 的 文献 。 
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基于 模糊 集合 模型 的 检索 结果 是 建立 在 信息 文档 集 上 的 , 且 其 隶属 度 就 是 信息 文档 
集 对 用 户 提问 的 相关 程度 的 模糊 子 集 。 就 目前 的 水 平 而 言 ,还 无 法 十 分 精确 ,有 效 地 确定 
这 个 隶属 函数 :在 提问 匹配 中 引入 的 max 和 min 算 符 不 能 很 好 地 反映 真实 的 匹配 过 程 ， 
而 把 提问 的 布尔 逻辑 表达 式 转换 成 析 取 范式 ,用 代数 和 、 代 数 积分 计算 析 取 模糊 集合 以 获 
取 模 糊 集合 中 信息 文档 的 隶属 度 ,更 加 适合 于 模糊 信息 检索 应 用 。 

模糊 检索 模型 与 经 典 布尔 模型 关系 密切 , 它 基 本 保留 了 布尔 检索 功能 ,但 是 更 为 灵 
活 , 对 那些 既 想 利用 布尔 检索 长 处 ,又 想 避 免 其 二 值 相 关 性 测度 局 限 性 的 人 们 来 说 ,能 够 
较 好 地 满足 信息 检索 需求 。 模 糊 检索 模型 还 支持 对 命中 文档 按 相关 度 大 小 的 排序 输出 。 


5.3 扩展 布尔 检索 


1983 年 信息 检索 专家 萨 尔 顿 (G. Salton) 及 其 博士 生 福 克 斯 (E. A. Fox) 等 人 提出 的 
一 种 基于 布尔 逻辑 框架 的 混合 布尔 与 向 量 特性 的 混合 检索 模型 , 即 扩展 布尔 模型 。 扩 展 
的 布尔 检索 模型 是 基于 布尔 逻辑 基本 假设 的 改进 ,下 面 采用 矢量 的 方法 来 讨论 布尔 信息 


5.3.1 基于 两 个 标 引 词 的 情形 

假定 信息 文档 集合 中 的 信息 d; 仅 用 两 个 标 引 词 4 和 4 标 引 , 并 且 4 ,i, 允许 被 赋予 
一 定 的 权 值 ,其 权 值 分 别 为 W;,;、W,,; , 权 值 的 取 值 范 围 为 LC0,1], 权 值 越 接近 于 1, 说 明 该 
词 越 能 反映 文本 的 内 容 , 反 之 ,反映 文本 的 内 容 较 差 。 给 标 引 词 加 权 通 常 采 用 的 是 著名 的 
tf-idf 加 权 方 案 : 

idf; 
max zx; X idf, 

式 中 f;,,j 为 标 引 词 4 在 文献 d; 中 出 现 的 频率 ,idf; 为 逆 信 息 文档 词 频 。 为 了 简单 起 
见 , 用 z,y 分 别 表示 权 值 W,,; 、W,,;。 我 们 采用 二 维 图 来 表示 信息 文档 的 提问 ,用 距离 的 
概念 表示 信息 文档 与 提问 的 相似 度 。 见 图 5-4。 

对 于 析 取 提问 gq 二 t, Vt, 只 有 A、B、C 三 点 所 代表 的 信息 文档 才 是 最 理想 的 ,对 于 任 
一 信息 文档 D; 而 言 , 当 它 离 A.B、C 三 点 越 接近 时 ,说 明 相 似 度 越 大 ,因而 D; 到 点 (0,0) 
的 矢量 距离 可 以 用 来 度量 与 提问 ge 的 相似 度 , 则 

1D;|= z+y C5=7) 

显然 ,0 过 1D; | 三 1, 为 了 使 相似 度 控 制 在 0 和 1 之 间 , 相 似 度 可 以 规范 化 为 


Ws, = fz,; X (5-6) 
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| 1 
(0, 1) 下 (0, 1) c 
(1,1) fi 二 
D(x,») 
区 革 
Dix,») 
“A |a,o eV | 
(0, 0) XX 负 B S (0, 0) XX 轴 B 
(a) (b) 
图 5-4 扩展 布尔 逻辑 的 矢量 表示 
-2 2 
sim(gud) = E> (5-8) 
对 于 合 取 提问 g 三 总 人 A 心 ,只 有 C 点 才 是 最 理想 的 文献 , 则 D; 到 C 点 的 矢量 距离 为 
1 Di |= 0 —z) + —y) (5-9) 
它 可 以 作为 衡量 文献 与 提问 之 间 相 似 度 的 一 个 尺度 , 则 相似 度 可 以 规范 化 为 
i 二 
人 一 »-) (5-10) 


5.3.2 推广 到 个 标 引 词 空间 
以 上 讨论 的 是 两 个 标 引 词 的 情况 ,信息 文档 集合 中 的 标 引 词 的 数目 为 nn 时 ,模型 可 以 
推广 到 维 空间 的 欧 几 里 得 距离 。 根 据 线 性 向 量 模型 理论 ,广义 的 析 取 提问 和 合 取 提问 
可 以 分 别 表示 为 
ds 一 右 Vs VP 和 
4 三 汗 V ?ts VP VI 
这 里 , 是 一 个 可 变 的 量 ,1<p 二 的 值 在 提问 时 就 应 当 确 定 。 则 这 两 种 文献 -提问 
的 相似 度 为 
四 


n 


sim(qgor dj) = [ 


a 攻 (下 wtl | 
sim( qua sd 
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式 中 的 x; 表示 信息 文档 d; 中 的 第 i 个 标 引 词 的 权 值 Wi,;。 由 于 p 是 一 个 变量 ,下 面 
分 析 p 的 取 值 对 相似 度 的 影 

(1) 当 p==1 时， 
/Dd Ce er le Bn loeb DE Wg ea lb | 


n n 


sim(qsm »,d;) 一 1 


=sim(gqor ,dj) (oy 
则 布尔 逻辑 表达 式 中 的 布尔 逻辑 运算 符 "* 人 和 人”“V ”已 毫 无 区 别 ,两 者 的 功能 都 减退 为 
0, 相 似 度 的 计算 采取 简单 的 向 量 空间 模型 余弦 函数 法 , 即 
Sw, xX Wis 
= = 一 一 (5-12) 
2 (Wi)’ x 2 Wi 
(2) 当 p 二 oo 时 , 标 引 词 的 权 值 在 L0,1] 上 ,扩展 布尔 模型 就 变 成 建立 在 模糊 逻辑 上 的 
布尔 检索 模型 , 则 “信息 文档 -提问 ”之 间 的 相似 度 为 
lim[ 开 十 对 十 … 十 zx? 


n 


sim(d;.q) = = | 
la; |xlgl| 


1 
sim( qor,d;) | max(x1i, TX2 ,Tn) 


m {1 Es 


sim(qand ,dj) lm 
1—max(l — x),(1 — zx) (1 — zx) 


= min(ziy xs» °° ,Tn) (5-13) 

(3) 当 zp 值 在 1 与 2 之 间 时 ,扩展 布尔 模型 就 介 于 向 量 模 型 和 布尔 模型 之 间 ,p 值 越 

大 ,信和 V 的 功能 就 越 强 ;p 值 越 小 , 入 和 V 的 功能 就 越 弱 ,直至 p 二 1, 其 功能 完全 消失 。 
见 图 5-5。 


| | 


向 量 空间 介 于 向 量 模型 和 模糊 相关 
模型 布尔 模型 之 间 检测 模型 


图 5-5 zp 值 的 变化 范围 


对 于 提问 语言 的 处 理 一 般 是 按 预 先 定义 的 次 序 对 运算 符 进行 分 组 而 展开 的 ,比如 对 
于 提问 q= (ti A?t2) Vts ;信息 文档 dj 与 提问 q 的 相似 度 通常 计算 为 
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工 重 
(2 wal 
sim(qg,di ) = 2 | (5-14) 


扩展 布尔 信息 检索 模型 放宽 了 这 种 用 代数 学 的 距离 来 解释 一 元 布尔 运算 ,在 某 种 意 
义 上 说 ,扩展 的 布尔 检索 模型 是 一 个 混合 模型 , 它 既 有 基于 集合 理论 的 信息 检索 布尔 模 
型 .信息 检索 模糊 模型 的 特征 ,也 具有 基于 代数 理论 的 向 量 空间 信息 检索 模型 的 特征 ,但 
人 们 通常 倾向 于 把 它 归 为 集合 论 模型 。 

布尔 模型 和 扩展 的 布尔 模型 主要 是 基于 康 托 (Contor) 的 经 典 集合 论 :一 个 元 素 w 和 
一 个 集合 A 的 关系 只 存在 CEA,a&A 两 种 情况 ,经 典 集合 论 容 不 得 模糊 的 概念 ,这 对 于 
信息 检索 过 程 中 所 存在 的 模糊 性 的 解释 造成 一 定 的 困难 。 检 索 中 的 模糊 性 主要 体现 在 以 
下 四 个 方面 : 

(1) 用 户 通常 不 能 准确 地 说 明 他 所 需要 的 信息 ,在 检索 过 程 中 会 出 现 “ 全 部 ”“ 一 些 ” 
等 数量 上 的 模糊 关系 和 “相关 ”“ 紧 密 相关 "等 相关 性 方面 的 模糊 概念 。 

(2) 系统 中 所 采用 的 信息 文档 标识 只 是 信息 文档 内 容 的 部 分 和 不 准确 的 表示 。 

(3) 大 部 分 信息 文档 只 是 与 用 户 提问 部 分 相关 。 

(4) 用 户 对 于 检索 结果 的 满意 程度 也 具有 不 确定 性 。 为 了 解决 这 种 模糊 性 引起 的 不 
确定 问题 ,人 们 引入 模糊 集合 理论 来 构建 模糊 集合 模型 。 

扩展 布尔 模型 是 常规 布尔 检索 精确 匹配 的 严格 性 和 向 量 处 理 模式 提问 的 无 结构 性 
的 折 中 , 它 用 代数 距离 的 方式 来 解释 并 放松 了 布尔 操作 的 限制 要 求 ,因而 有 效 融 合 了 传 
统 的 布尔 ` 向 量 等 检索 模型 的 处 理 思想 。 扩 展 布尔 模型 的 主要 特点 分 析 有 以 下 几 个 
方面 : 

(1) 与 传统 布尔 检索 中 的 倒 排 文档 技术 相 兼 容 ,支持 使 用 标准 布尔 逻辑 表达 的 提问 
式 结构 。 
(2) 允许 在 文档 和 提问 式 中 进行 词 加 权 处 理 ; 支 持 按 相 似 度 的 大 小 排序 输出 检索 


结果 。 
(3) 通过 调整 参数 p 的 取 值 ,可 以 灵活 选择 并 得 到 不 同 的 检索 结果 。 

(4) 扩展 布尔 逻辑 检索 模型 适用 于 反馈 信息 系统 。 

(5) 可 以 对 信息 文档 的 标 引 词 和 提问 词 分 别 加 权 , 以 反映 信息 文档 中 词语 的 相对 重 
要 性 程度 和 用 户 提 问 的 侧重 点 。 
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5.4 信息 检索 代数 模型 


检索 代数 模型 是 以 线性 代数 .矩阵 计算 等 数学 理论 为 基础 ,利用 代数 论 基 本 知识 揭示 
信息 间 关 系 的 检索 模型 , 它 在 信息 检索 的 发 展 中 发 挥 着 重要 作用 。 检 索 代 数 模型 主要 包 
括 向 量 空间 模型 、 隐 含 语义 索引 模型 .神经 网 络 模型 等 具体 类 型 。 


5.4.1 信息 检索 向 量 空间 模型 

1. 向 量 空间 模型 概述 

Gerard Salton 在 20 世纪 60 年 代 提 出 了 向 量 空间 模型 (vector space model,VSM) 对 
信息 特征 进行 表达 ,后 来 成 功 应 用 于 很 多 文本 检索 系统 (system {or the manipulation and 
retrieval of text,SMART) ,VSM 理论 框架 到 现在 仍然 是 信息 检索 研究 的 重要 基础 理论 
之 一 。 但 随 着 网 络 信息 量 的 剧烈 脱 胀 和 网 络 信息 格式 的 多 样 化 ,这 种 方法 查询 的 结果 往 
往 会 与 用 户 真 实 的 需求 相差 甚 远 ,而 且 产 生 的 无 用 信息 量 非常 多 ,许多 用 户 和 希望 的 个 性 化 
查询 无 法 实现 (个 性 化 查询 就 是 将 一 般 的 查询 结果 根据 用 户 的 个 性 模型 进行 二 次 检索 ,以 
适应 用 户 个 人 的 需求 ) ,为 此 人 们 从 许多 方面 对 VSM 进行 优化 和 改进 ,以 期 获得 更 高 的 
查询 精度 和 效率 。 

2. 文档 向 量 的 构造 

对 于 任 一 信息 文档 d; ED, 我 们 可 以 把 它 表示 为 如 下 二 维 向 量 的 形式 : 

qd; = (yy 和 ogg) (5-15) 

其 中 ,向 量 分 量 wi 代表 第 i 个 索引 词 &; 在 文档 d; 中 所 具有 的 权重 ,i 为 系统 中 索引 
词 的 个 数 。 在 布尔 模型 中 ,wi 的 取 值 范 围 是 (0,1); 在 向 量 空间 模型 中 ,由 于 采用 “部 分 匹 
配 ?策略 ,rey 的 取 值 范围 则 是 一 个 连续 的 实数 区 间 [0,1]。 

众所周知 ,一 篇 文档 信息 中 会 标 引 出 多 个 不 同 的 索引 词 ,而 这 些 索引 词 对 表达 该 篇 文 
档 信 息 主题 的 能 力 往 往 是 不 同 的 。 换 名 话说 ,每 个 索引 词 应 该 具有 不 同 的 权 值 。 如 何 计 
算 文档 向 量 中 每 个 索引 词 的 权 值 ,不 仅 关 系 到 文档 向 量 的 形成 ,也 关系 到 后 续 的 检索 匹配 
结果 。 

目前 ,索引 词 权 值 计算 方案 有 很 多 种 。 在 进行 加 权 计 算 时 ,索引 词 权 值 的 大 小 主要 依 
赖 于 对 索引 词 的 各 种 频率 数据 的 统计 ,并 通常 考虑 两 个 方面 的 因素 : 局 部 权 值 和 全 局 权 
值 。 所 谓 “ 局 部 权 值 ”, 是 指 第 i 个 索引 词 在 第 j 篇 文档 中 的 权 值 ,而 “全 局 权 值 ? 则 是 指 第 
i 个 索引 词 在 整个 系统 文档 集合 中 的 权 值 。 现 在 ,假设 N 为 检索 系统 文档 总 数 ,n; 为 系统 
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中 含有 索引 词 Ai 的 文档 数 ,freq; 为 索引 词 &; 在 文档 必 中 的 出 现 次 数 ,idf; 表示 索引 词 ; 
的 道 文档 频率 (inverse document frequency,idf 或 IDF) ,maxtf 表示 文档 di 中 所 有 索引 
词 出 现 次 数 的 最 大 值 ,那么 ,对 于 文档 d; 中 索引 词 A; 的 权 值 计算 方法 如 下 : 
f5 = freqy/max tt; (局 部 权 值 ) 
idf; = log (N/n;) (全 局 权 值 ) (5=16) 
ws = fs X idfi (索引 词 全 值 ) 
式 (5-16) 是 一 种 最 为 流行 的 权 值 计算 公式 ,被 研究 人 员 称 为 “tf-idf( 词 频 - 逆 文 档 频 
率 )” 加 权 模 式 。 基 于 这 一 加 权 模 式 的 计算 公式 还 有 一 些 ,对 于 它们 的 加 权 效 果 , 研 究 人 员 
也 进行 了 相当 多 的 试验 分 析 。 
3. 提问 向 量 的 构造 
在 向 量 空间 模型 中 ,用 户 的 信息 需求 被 加 工 、 转 换 为 提问 向 量 , 并 用 与 文档 向 量 类 似 
的 表示 形式 表示 , 即 
q = (rolegyr2zg yz) C5=17> 
这 里 ,1 为 系统 索引 词 的 总 数 ,向 量 分 量 ws 表示 第 i 个 索引 词 &; 在 提问 g 中 的 权 值 ， 
且 有 ws 宇 90。 至 于 如 何 评估 wi 的 权 值 ,一 个 推荐 性 的 计算 公式 是 
wa 一 (0.5 十 0.5X freqs/maxtfs) X log (N/ni) (5=18》 
其 中 ,freqs 为 在 表述 用 户 信息 需求 的 文本 内 容 中 索引 词 &; 的 出 现 次 数 ,而 maxtf。 则 
为 在 表述 用 户 信 息 需 求 的 文本 信息 中 使 用 的 所 有 索引 词 出 现 次 数 的 最 大 值 。 
4. 匹配 函数 的 选择 及 相似 度 阅 值 的 确定 
在 文档 与 提问 向 量化 表示 的 基础 之 上 ,文档 与 查询 提问 之 间 的 相关 程度 ( 即 相 似 度 ) 
就 可 以 由 它们 各 自 向 量 在 二 维 空间 的 相对 位 管 来 决定 。 一 般 地 ,相似 度 计算 函数 sim(d;,g) 
可 以 有 非常 多 样 化 的 选择 ,但 较 常 采用 的 相似 度 计算 指标 是 两 个 向 量 夹 角 的 余弦 函数 
( 见 图 5-6)。 


< 


6 


Ts 


图 5-6 文档 向 量 与 提问 向 量 的 夹 角 及 余弦 值 


按照 两 个 向 量 夹 角 余 弦 的 计算 含义 ,文档 d; 和 提问 g 的 相似 度 值 就 可 以 通过 下 面 的 
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计算 公式 获得 : 


sim(d;,q) = (d; . q)/(| d; |X| (q) |) = (5-19) 


| Dw | Dw 
i=1 i=1 


式 (5-19) 中 , | d; | 和 | gq | 分 别 表示 文档 向 量 d; 和 提问 向 量 g 的 模 (norm) 或 长 
度 , 分 子 d;， gq 是 两 向 量 的 内 积 。 由 于 wi 宇 0 和 ws 宇 0, 因 此 有 0 三 sim(qd;,q) 三 1。 这 样 
一 来 ,检索 处 理 不 仅 能 判断 文档 是 相关 还 是 不 相关 ,而 且 还 可 以 定量 化 地 判断 系统 所 有 文 
档 与 某 一 提问 的 相关 度 大 小 ,并 能 够 按照 其 相关 度 值 的 降序 排列 方式 输出 命中 的 结果 
文档 。 

为 更 有 效 地 得 到 一 个 合理 的 检索 结果 ,需要 进一步 指定 一 个 相关 度 阔 值 C(threshold)》， 
凡 与 提问 向 量 的 相关 度 值 大 于 4 的 文档 ,都 将 作为 检索 结果 提供 给 用 户 。 如 此 ,向 量 空间 
模型 的 检索 匹配 便 有 一 种 "部 分 匹配 ?策略 思想 。 

5. 基于 向 量 空间 的 信息 检索 描述 

一 个 向 量 空间 是 由 一 组 线性 无 关 的 基本 向 量 组 成 ,向 量 维 数 与 向 量 空间 维 数 一 致 ,并 
可 以 通过 向 量 空间 进行 描述 。 向 量 空间 模型 描述 如 下 : 

概念 1: 文档 D(document) , 泛 指 文档 或 文档 中 的 一 个 片段 (如 文档 中 的 标题 、 摘 要 、 
正文 等 ) 。 

概念 2: 特征 项 i(term) ,指出 现在 文档 中 能 够 代表 文档 性 质 的 基本 语言 单位 (如 词语 
等 ) ,也 就 是 通常 所 指 的 检索 词 。 这 样 一 个 文档 D 就 可 以 表示 为 DC,to，…,4,), 其 中 
7 就 代表 了 检索 字 的 数量 。 

概念 3: 特征 项 权重 Wi(term weight) 指 特征 项 1, 能 够 代表 文档 DD 能 力 的 大 小 ,体现 
了 特征 项 在 文档 中 的 重要 程度 。 这 样 文档 D 的 向 量 可 以 表示 为 DCwwm ww，… ,wm) ,其 中 
wisw2 ,on 分 别 代表 文档 DD 特征 项 各,… 心 的 特征 项 权重 。 在 网 络 索引 文件 中 ,每 一 个 
向 量 对 应 一 个 URL, 当 用 户 检 索 查询 一 个 文档 内 容 时 ,如 果 匹 配 , 则 向 量 D 对 应 的 特征 项 
t 值 为 1, 否则 值 为 0, 如 下 所 示 : 

Term ID Ti Ti = 了 
也， 0 1 …… 0 
D; 0 1 "0 
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车 we 查询 条 件 QS 
看 向 量 9 若 & 查询 条 件 QS 

概念 4: 相似 度 SCsimilarity) , 指 两 个 文档 内 容 相关 程度 的 大 小 , 当 文 档 以 向 量 来 表 
示 时 ,可 以 使 用 向 量 文档 向 量 间 的 距离 来 衡量 ,一 般 使 用 内 积 或 夹 角 0 的 余弦 来 计算 ,两 
者 夹 角 越 小 说 明 相似 度 越 高 。 由 于 查询 也 可 以 在 同一 空间 里 表示 为 一 个 查询 向 量 ( 见 
图 5-7) ,可 以 通过 相似 度 计算 公式 计算 出 每 个 文档 向 量 与 查询 向 量 的 相似 度 ,排序 这 
个 结果 后 与 设立 的 阔 值 进行 比较 。 如 果 大 于 闵 值 , 则 网 页 与 查询 相关 ,保留 该 页 面 查 询 
结果 ;如 果 小 于 , 则 不 相关 ,过 滤 此 网 页 。 这 样 就 可 以 控制 查询 结果 的 数量 ,加 快 查询 
速度 。 


sim(Di1,D;s) = DW X Wa (5-20) 
K=1 
DO Wu Xx Wa 
sim(D, ,D:) = cos 0 和 (5-21) 
[Dwi) (Pw)] 
有 一】 k=l 
特征 项 2 


文档 Dy(@, Op，… 


,00,,) 


人 

1 

| 

| 文档 Di(@, oa, … ,0,) 
1 

1 

| 

| 查询 少 
| 

1 


图 5-7 文档 VSM 及 相似 度 Sim(D' 、D;) 


6. 信息 检索 向 量 空间 数学 模型 工作 机 制 

向 量 空间 模型 是 目前 信息 检索 最 常用 的 数学 模型 之 一 ,在 WWW 信息 方面 ,向 量 空 
间 模 型 比 布尔 模型 等 传统 模型 更 合适 。 基 于 向 量 空间 模型 的 信息 检索 一 般 过 程 是 : 四 将 
各 个 文档 和 查询 都 表示 成 为 向 量 ; @@ 计 算 查 询 与 各 个 文档 之 间 的 相似 度 ; 四 按照 查询 与 
各 个 文档 之 间 的 相关 度 对 相关 的 文档 进行 排序 ; @ 将 排序 后 的 文档 以 线性 列表 的 形式 返 


110 /大 学 生 信 息 检索 素养 教程 


回 给 用 户 。 

根据 上 述 知识 可 以 引出 如 图 5-8 所 示 的 向 量 空间 信息 检索 模型 机 制图 ,这 里 需要 解 
决 特征 项 的 生成 和 加 权 、 相 似 度 的 计算 (检索 运算 ) 等 一 系列 问题 。 由 于 向 量 检索 中 采用 
向 量 间 的 某 种 距离 度量 来 反映 文档 对 的 满足 程度 ,所 以 相似 度 的 值 最 好 能 与 真实 情况 相 
符 。 而 且 计算 简便 ,计算 出 的 值 最 好 能 归 一 化 到 [0,1] 区 间 上 ,分布 尽 可 以 均匀 ,使 冰 值 的 
选择 容易 一 些 。 直 接 选 定 相似 度 阔 值 的 办 法 有 时 不 太 好 控制 ,这 时 可 以 根据 相似 度 对 文 
档 排序 并 直接 给 定 输出 的 文档 数目 。 


Ce ) 词典 ， 规 则 库 


预 处 理 | .| 。 


文本 输入 人 分词 .标注 等 ) 上 -| 生成 项 集 上] 项 的 加 权 


文档 Di 或 查询 
@ 的 向 量 表示 


用 户 查 询 0 或 
相关 反馈 


根据 或 M 得 到 检 计算 相似 度 并 对 文档 
索 结果 


D1 按 相似 度 排序 
门限 S 或 文档 数 M 


图 5-8 向 量 空间 信息 检索 模型 机 制 


7. 向 量 空间 信息 检索 模型 的 不 足 

从 向 量 空间 模型 的 特点 可 以 看 出 ,在 特征 项 确定 的 情况 下 ,特征 项 的 权重 计算 是 文档 
分 类 的 关键 ,特征 项 权重 计算 常用 的 方法 有 布尔 函数 、 开 根 号 函数 、 对 数 函 数 、TFIDF 函 
数 等 。 其 中 TFIDF 函数 应 用 最 为 广泛 ,基本 思路 是 使 用 频率 因子 TF(term frequency) 进 
行 特征 项 的 赋 权 ,同时 还 要 考虑 文档 集 因子 IDF(inverse document frequency) ,体现 出 查 
询 内 容 与 文档 的 相关 度 大 小 ,一 般 采 用 使 用 出 现 频 率 的 倒数 来 计算 ,但 是 TFIDF 函数 也 
存在 缺点 , 它 虽 然 考虑 了 出 现 特征 项 的 文本 在 整个 文档 集中 的 比例 , 却 不 能 很 好 地 把 握 特 
征 项 在 文本 集合 中 分 布 的 差异 ,所 以 影响 了 分 类 的 最 终 效果 。 

VSM 的 第 一 个 问题 是 由 于 特征 项 在 文档 中 的 不 同位 置 代 表 不 同 的 权重 ,而 不 同 的 关 
键 词 长 度 也 会 影响 权重 的 大 小 。 例 如 “汽车 修理 ”一 词 在 查询 时 ,如 果 该 词 出 现在 文档 的 
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标题 处 , 则 其 权重 一 定 比 出 现在 文章 的 摘要 中 要 高 ,而 出 现在 摘要 中 的 权重 一 定 要 比 出 现 
在 正文 中 要 高 ;而 且 如 果 文 档 Di 的 长 度 比 文档 D; 长 ,那么 在 D; 中 的 权重 也 应 该 比 Di 
要 高 ,其 相似 度 也 应 该 大 一 些 。 对 于 中 文 文档 ,关键 词 的 长 度 越 长 , 则 在 文档 中 出 现 的 概 
率 就 越 小 ,所 以 较 长 的 关键 词 要 比较 短 的 包含 更 多 的 信息 。 在 实际 情况 中 ,如 果 同 一 特征 
项 在 不 同文 档 中 出 现 的 次 数 不 同 ,那么 在 出 现 频率 较 高 的 文档 中 ,其 权重 应 该 较 高 (而 不 

应 该 是 统一 权重 值 *1”)。 在 传统 的 TFIDF 函数 中 ,每 增加 一 个 文档 都 要 重新 计算 向 量 ， 
导致 查询 速度 降低 ,同时 由 于 使 用 频率 因子 ,在 扩大 查询 范围 时 ,不 可 避免 地 会 影响 到 查 
询 的 准确 性 。 

VSM 的 另 一 个 问题 在 于 查询 和 文档 向 量 间 是 依靠 链接 来 判断 的 ,而 且 判 断 的 依据 是 
简单 的 两 者 相同 关键 词 的 比较 。 但 实际 情况 是 大 量 的 关键 词 具有 相同 的 语义 ,同一 关键 
词 也 会 有 多 种 语义 的 解释 描述 ( 即 产 生 了 语义 分 歧 )。 例 如 “检索 ”一 词 ,也 可 以 是 “查找 ”、 
“查询 ”等 ,对 用 户 来 说 所 指 的 含义 可 能 是 一 个 意思 ,但 在 VSM 中 这 几 个 词 是 完全 不 同 的 
概念 ,也 就 是 说 用 户 使 用 “检索 "这 个 关键 词 去 查询 时 ,包含 相关 的 “查找 ”"“ 查 询 ” 的 文档 
会 检索 不 出 ,而 另 一 方面 ,可 能 许多 不 相关 的 文档 反而 会 被 检索 出 来 。 

8. 改进 的 VSM 方法 

传统 的 VSM 主要 的 缺陷 就 是 特征 项 相互 独立 与 自然 语言 多 样 性 有 了 矛盾。 实际 上 主 
要 考虑 两 个 方面 的 改进 : 一 个 是 检索 关键 词 的 长 度 和 出 现在 文档 中 的 位 置 对 权重 的 影 
响 , 另 一 个 就 是 要 考虑 检索 关键 词 的 语义 环境 影响 。 

1) 加 权 的 VSM 改进 算法 

tf; 


W;=AXt x log (2 十 0. ij (5-22) 


其 中 4 为 位 置 加 权 系 数 ,表示 检索 文本 在 文档 不 同位 置 的 加 权 处 理 参数 ,按照 检索 文 
本 在 文档 中 的 位 置 不 同 , 一 般 分 为 标题 摘要、 关键 词 、 正 文 .结论 和 超 链 接 六 个 位 置 ,分 别 
赋予 不 同 的 加 权 系 数 ,由 于 Web 文档 信息 都 是 通过 链接 来 完成 的 , Web 上 的 各 种 标记 和 
链接 包含 了 页 面 的 结构 信息 ,应 该 给 予 足 够 的 重视 和 利用 。 例 如 ,在 链接 一 ~* 中 ,r 的 连 
接 标 记 若 为 文档 Di (a href 一 “http: www. china…”) 锚 文本 (/a) 文 档 D:, 其 中 锚 文 本 对 
目标 URL 二 “http: www. china…” 会 有 比较 准确 的 描述 ,而 文档 D1、D; 就 次 之 ,所 以 对 于 
出 现在 锚 文 本 和 文档 Di .D; 中 的 每 一 个 特征 项 应 赋予 较 高 的 权重 系数 。 

en ge 些 语义 的 重点 语句 位 置 ,如 “ 综 上 所 述 ”“ 结 束 语 ”、“ 主 
要 在 于 ”等 关键 语句 中 ,其 值 可 以 从 辅助 检索 词 表 中 获取 。 一 般 位 置 加 权 系 数 4 的 计算 可 
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以 考虑 使 用 各 分 部 分 的 频率 与 不 同位 置 加 权 系数 的 乘积 和 来 表示 。 
六 王 tf 十 thX)i 十 tfzXhz 十 tfts XA 二 tts Xi 十 tfs X)s C5=23) 
其 中 tf 为 对 正文 关键 词 统计 的 词 频数 ;tf ,tfz,tfs,tfs,tfs 分 别 为 标题 摘要、 关键 
词 .结论 . 超 链 接 中 的 词 频 ;Ai ,X42 ,Xs,h4 ,4s 分 别 为 其 加 权 系数 。 
t 为 特征 项 频率 ;NN 为 总 文档 数量 ;nj 为 包含 特征 项 W; 的 文档 数 ,2 为 文档 长 度 ,使 


用 下 来 表示 文本 能 够 代表 文档 内 容 的 能 力 。 例 如 ,虽然 “计算 机 ?一 词 出 现在 文档 标题 和 


正文 中 的 频率 相同 ,但 由 于 标题 比 正文 文档 长 度 要 小 得 多 ,所 以 我 们 认为 “计算 机 ”一 词 在 
标题 中 的 权重 要 比 在 正文 中 的 权重 大 得 多 。 

2) 辅助 检索 词 表 和 个 性 化 协同 检索 设计 

由 于 自然 语言 的 特点 ,从 语法 角度 来 看 ,许多 关键 词 的 含义 只 起 修饰 的 作用 (如 形容 
词 .副词 ), 并 不 能 表示 独立 的 概念 ,这 些 带 有 修饰 和 限制 性 的 词 在 很 大 程度 上 代表 了 用 户 
查询 的 需求 ,如 果 忽略 这 部 分 内 容 , 将 会 产生 许多 不 相关 的 查询 结果 ;同时 由 于 一 词 多 义 、 
一 义 多 词 的 现实 情况 ,简单 地 以 检测 一 个 文档 与 查询 语句 间 的 特征 项 是 否 相同 来 判断 是 
否 具 有 相关 性 ,会 使 许多 真正 与 之 相关 的 文档 反而 没有 被 检索 出 来 。 

因此 需要 设计 一 个 辅助 检索 词 表 ,用 来 存储 同义词 和 修饰 限制 词语 ,借助 这 个 数据 
库 ,将 用 户 查 询 的 特征 值 进 行 语义 扩展 ,将 检索 关键 词 与 字典 库 中 的 同义词 和 修饰 词 结合 
起 来 ,形成 新 的 检索 特征 项 ,这 样 就 将 孤立 的 用 户 初始 检索 词 变 成 了 一 个 具有 自然 语义 的 
检索 词 ,在 查询 时 就 可 以 将 只 含有 初始 检索 词 而 不 能 表示 辅助 检索 词 表 修饰 语 的 文档 过 
滤 , 从 而 提高 检索 精度 和 效率 。 

男 一 方面 ,利用 “个 性 化 信息 库 ” 来 分 析 用 户 兴趣 ,并 根据 以 往 用 户 的 检索 信息 内 容 推 
荐 早期 用 户 兴趣 ,配合 概念 检索 进行 协同 ,以 期 获得 更 为 个 性 化 的 信息 服务 ;同时 将 每 一 
次 的 检索 结果 、 用 户 兴 趣 等 进行 信息 反馈 、 定 期 刷新 ;不断 充实 改进 “个 性 化 信息 库 ”; 此 
外 ,不 同 的 用 户 对 相同 的 检索 内 容 会 有 着 不 同 的 理解 和 期 望 结 果 , 所 以 还 可 以 根据 “个 性 
化 信息 库 ” 来 设计 不 同 的 检索 结果 库 , 以 期 得 到 个 性 化 的 检索 结果 。 

在 个 性 化 协同 算法 中 ,可 以 将 用 户 (user) 模 型 以 向 量 形式 来 表示 : U 二 (i,ws，*…， 
wu) ,其 相似 度 可 以 用 与 特征 向 量 的 内 积 来 计算 : Sim(U,W) = 2 X wa， 即 计算 用 户 模 


型 与 文档 特征 项 的 相似 度 , 排 除非 用 户 感 兴趣 的 页 面 ,从 而 实现 查 准 率 的 提高 。 改 进 后 的 
VSM 流程 如 图 5-9 所 示 。 
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个 性 化 信息 库 


镑 芳 本 避 


号 河 涅 以 


添加 修饰 语句 形成 新 
的 扩展 查询 语句 


VSM 计 算 概念 检索 一 一 一 


生成 个 性 化 检索 结 
果 库 


图 5-9 VSM 改进 算法 流程 图 


5.4.2 潜在 语义 索引 模型 

1. 潜在 语义 索引 的 提出 

传统 的 分 类 模型 一 般 是 用 词 条 作为 特征 的 ,为 了 降低 检索 系统 的 复杂 度 , 一 般 认为 检 
索 词 与 检索 词 之 间 是 相互 独立 的 ,这 显然 是 与 事实 相 违 背 的 ,因此 向 量 空间 模型 的 效果 一 
直 有 不 足 之 处 。 自 然 语 言 中 词语 的 多 义 性 (polysemy) 与 同 义 性 (synonymy) 现 象 普遍 存 
在 ,当初 萨 尔 顿 等 人 在 VSM 中 关于 特征 项 ( 即 索 引 词 ) 之 间 相 互 独立 的 基本 假设 ( 正 交 假 
设 ) ,在 实际 检索 的 信息 处 理 过 程 中 很 难 满足 信息 获取 需要 。 那 么 ,如 何 修正 “ 正 交 假设 ” 
的 缺陷 与 不 合理 性 ,并 将 文本 检索 处 理 水 平 从 离散 的 索引 词 形 式 匹 配 深入 到 概念 或 语义 
匹配 的 层次 上 ,成 为 代数 检索 迫切 需要 考虑 的 问题 。 从 20 世纪 80 年 代 末 开始 , 杜 麦 斯 
(S.T. Dumais)、 贝 瑞 (M. W. Berry) 等 研究 人 员 基 于 VSM 理论 框架 ,分 析 并 提出 了 一 种 
新 的 信息 检索 模型 一 一 潜在 语义 索引 或 隐 含 语义 索引 (latent semantic indexing,LSI) 。 
在 有 些 研究 文献 中 ,研究 人 员 也 称 为 潜在 (或 隐 含 ) 语 义 分 析 (latent semantic analysis ， 
LSA) 。 

在 用 词 条 来 表示 文本 的 时 候 , 大 量 存在 的 同义词 .近义词 和 多 义 词 ,使 得 特征 之 间 相 
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互 独立 的 假设 不 能 成 立 。LSI 通过 统计 大 量 文本 中 这 些 词 的 共 现 信息 来 发 掘 它们 的 内 部 
联系 , 称 为 文本 的 语义 。LSI 认为 每 个 文档 都 包含 有 几 种 语义 ,这 些 语义 之 间 是 相互 独立 
的 ,如 果 可 以 用 这 些 语义 来 表示 文档 ,并 拿 它 们 来 进行 计算 , 则 在 降低 计算 复杂 度 的 同时 ， 
还 可 以 保持 很 好 的 效果 。 由 于 这 种 语义 不 能 直接 得 到 ,只 能 通过 对 文档 特征 的 分 析 得 到 ， 
它 是 潜藏 在 文档 信息 特征 之 间 的 ,所 以 称 为 “潜在 语义 ”。 

潜在 语义 索引 可 以 看 成 是 一 种 扩展 的 向 量 空间 模型 ,用 于 发 现 文本 信息 中 的 语义 关 
系 。 潜 在 语义 索引 基于 如 下 假设 : 文档 中 的 词 条 与 词 条 之 间 是 存在 一 定 关联 的 ,只 不 过 
潜在 的 这 个 语义 被 文档 中 词 条 的 语义 和 形式 上 的 多 样 性 掩盖 得 不 明显 而 已 。LSI 能 够 加 
强 相关 词 条 (或 文档 ) 之 间 的 关联 性 ,而 前 弱 非 相关 词汇 (或 文档 ) 之 间 的 关联 性 ,将 高 维 空 
间 中 的 文档 向 量 (或 词 条 向 量 ) 投 影 到 低 维 的 潜在 语义 空间 中 ,使 得 原来 没有 任何 共同 项 
的 两 个 文档 (或 词汇 ) 经 过 LSI 处 理 后 有 可 能 找到 彼此 间 比 较 有 意义 的 关联 性 ,体现 文档 
(或 词汇 ) 间 的 语义 。 

2. 潜在 语义 索引 的 基本 思想 

潜在 语义 索引 使 用 了 向 量 空间 模型 的 方法 来 表示 "词汇 -文本 ”矩阵 ,是 对 向 量 空 间 模 
型 的 扩展 ,其 中 每 一 行 代表 一 个 词汇 向 量 ,每 一 列 代表 文本 集中 的 一 个 基于 关键 词 的 向 量 
空间 模型 (VSM) ,用 A 二 {a5 )wx, 表 示 m 个 词汇 入 个 文本 构成 的 文本 集合 , 它 的 优点 在 
于 将 非 结构 化 的 文本 表示 为 向 量 形式 ,使 得 各 种 信息 检索 的 基本 数学 处 理 成 为 可 能 。 但 
是 ,向 量 空间 模型 是 基于 词汇 之 间 关 系 相互 独立 的 基本 假设 ( 正 交 假设 ) ,在 实际 情况 下 很 
难得 到 信息 查询 的 需求 满足 ,文本 中 出 现 的 词 往往 存在 一 定 的 相关 性 ,在 某 种 程度 上 会 影 
响 计算 结果 。 

LSI 则 将 自然 语言 中 的 每 个 文本 视 为 以 词汇 为 维度 的 空间 中 的 一 个 点 ,认为 一 个 包 
含 语义 的 文本 出 现在 这 种 空间 中 , 它 的 分 布 绝对 不 是 随机 的 ,而 是 服从 某 种 语义 结构 的 。 
同样 地 ,也 将 每 个 词汇 视 为 以 文本 为 维度 的 空间 中 的 一 个 点 。 文 本 是 由 词汇 组 成 的 ,而 词 
汇 又 要 放 到 文本 中 去 理解 ,体现 了 一 种 “词汇 -文本 ”双重 概率 关系 。 

LSI 把 词汇 中 的 一 些 不 经 常 的 用 法 ,如 一 些 词 汇 的 误 用 ,或 不 相关 的 词汇 偶然 出 现在 
一 起 ,还 有 高 频 词 、 低 频 词 等 不 能 代表 文本 主题 的 词汇 视 为 “噪声 ”, 应 当 从 主要 语义 结构 
中 排除 掉 。 利 用 截断 的 奇异 值 分 解 降 维 的 方法 ,达到 信息 过 滤 和 去 除 噪声 的 目的 。 通 过 
对 “词汇 -文本 ”矩阵 A 进行 截断 的 奇异 值 分 解 ,得 到 矩阵 A 的 序 为 的 “近似 矩阵 ”, 从 数 
据 压 缩 的 角度 看 ,“ 近 似 和 矩阵 ”是 序 为 的 前 提 下 和 矩阵 A 的 最 小 二 阶 意义 上 的 最 佳 近似 。 
LSI 不 同 于 VSM 中 文本 和 词汇 的 高 维 表示 ,而 是 将 文本 和 词汇 的 高 维 表示 投影 在 低 维 的 
洪 在 语义 空间 中 ,缩小 了 问题 的 规模 ,得 到 词汇 和 文本 的 不 再 稀 玻 的 低 维 表示 ,同时 这 种 
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低 维 表示 揭示 出 了 “词汇 -文本 ”之 间 语 义 上 的 联系 。 

3. 潜在 语义 索引 的 数学 基础 

实验 表明 : 潜在 语义 索引 通过 奇异 值 分 解 , 不 仅 减 少 了 “词汇 -文本 ”矩阵 的 维 数 , 而 
且 大 大 消减 了 一 直 困 扰 基 于 关键 词 的 信息 检索 的 文本 中 词汇 的 同 义 性 和 多 义 性 问题 , 那 
么 ,潜在 语义 索引 的 数学 依据 是 什么 呢 ? 通过 两 个 关于 奇异 值 分 解 定理 来 进行 剖析 。 

定理 1: 假设 4 的 奇异 值 分 解 由 公式 给 出 ,并 且 有 

生生 

R(A) 和 和 N(A4) 分 别 表 示 4 的 表示 区 域 和 A 的 零 空间 , 则 有 

(1) 阶 特性 : rank(4) 王 r,NC4A) 王 (yw),RGCA) 王 spanft ar)， 

U = [usu] V= [ysvs sv 
(2) 二 阶 分 解 性 : 
A= Duehe (5-24) 


(3) 规范 性 ;| A 1 和 一 时 十 1 十 … 十 12， 41 一 人 

其 中 ,| 。 | 和 | 外 。| 分 别 代表 和 矩阵 的 广 范 数 和 谱 范 数 ,定理 1 说 明了 单位 向 量 
ii 与 矩阵 4 的 关系 ,同时 也 体现 了 和 矩阵 4 的 特征 值 与 其 范 数 的 关系 。 

但 是 ,向 量 击 ,wz，…,u, 对 "词汇 -文本 ?矩阵 4 的 影响 程度 是 不 一 样 的。 因此 ,常常 
需要 对 矩阵 A 相应 的 语义 空间 进行 压缩 ,由 于 7 个 特征 值 是 按 大 小 排序 的 ,只 保留 前 个 
最 大 的 特征 值 , 即 所 谓 的 对 A 进行 奇异 值 分 解 。 

所 以 上 面 最 重要 的 是 奇异 值 分 解 的 阶 的 特性 , 它 表 明 可 以 将 矩阵 的 奇异 值 作 为 矩阵 
定性 分 析 的 定量 手段 。 而 奇异 值 分 解 的 二 阶 分 解 性 表明 ,在 很 多 应 用 场合 中 可 以 对 矩阵 
进行 大 胆 的 压缩 。 

定理 1 的 三 个 方面 可 以 用 来 证 明 下 列 定理 。 

定理 2; 假设 4 的 奇异 值 分 解 由 公式 给 出 ,r= 二 Rank(A4) 三 p 二 min(m,n) ,对 于 任意 的 
k 壹 7, 定义: 


A: = Du A (5-25) 
i=1 
那么 ， 
min, 1A—Bli= 1A—Als = 十 … 二 Ap; (5-26) 
min | A B | 2 | A A | 2 AH (5-27) 
r(B)=k 


这 一 重要 结论 表明 ,由 A 的 & 个 最 大 的 奇异 三 元 组 构成 的 A 是 和 A 最 接近 的 & 序 和 矩 
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阵 , 换 言 之 ,LSI 将 “词汇 -文本 ”矩阵 从 高 序 投影 到 低 序 后 , 尽 可 能 地 保留 了 原始 矩阵 A 的 
大 部 分 信息 含量 和 查询 能 力 。 但 是 ,这 还 不 足以 说 明 为 什么 LSI 模型 改进 了 查询 能 力 。 
为 此 在 一 个 比较 严格 的 前 提 下 ,得 到 了 下 面 的 一 个 定理 ,这 个 定理 能 够 更 加 明确 地 指出 模 
型 确实 能 够 改进 信息 检索 性 能 。 

定理 3: 假设 C 为 一 个 纯粹 的 模型 ,e 可 分 为 包含 & 个 主题 的 文本 库 模型 ,而且 每 一 
个 词汇 在 某 一 主题 中 出 现 的 概率 最 大 为 r,r 为 一 个 大 于 0 的 足够 小 的 值 。 若 有 m 个 文本 
由 C 模型 产生 , 则 序 为 & 的 LSI 以 (1 一 00m 2:) 的 概率 0(e) 偏 向 C。 

4. 潜在 语义 索引 的 特点 

与 传统 的 向 量 空间 模型 相 比 ,LSI 的 优点 在 于 以 下 几 方 面 : 

(1) 利用 潜在 的 语义 结构 表示 词汇 和 文本 ,将 词汇 和 文本 映射 到 同一 个 & 维 的 语义 
空间 内 ,向 量 的 含义 发 生 了 很 大 变化 。 它 反映 的 不 再 是 简单 的 词汇 出 现 频率 和 分 布 关 系 ， 
而 是 强化 的 语义 关系 。 在 保持 了 原始 大 部 分 信息 的 同时 ,克服 了 传统 向 量 空间 表示 方法 
产生 的 多 义 词 . 同 义 词 和 单词 依赖 的 现象 。 同 时 ,在 新 的 语义 空间 中 进行 相似 度 分 析 , 比 
使 用 原始 的 特征 向 量具 有 更 好 的 效果 ,因为 它 是 基于 语义 层 而 不 仅仅 是 词汇 层 。 

(2) 词汇 和 文本 在 相同 的 空间 使 得 LSI 更 具 灵 活性 ,允许 用 户 使 用 自然 语言 提交 
查询 请 求 , 查 询 条 件 可 以 是 独立 的 词汇 ,也 可 以 是 文本 信息 内 容 , 使 得 查询 和 反馈 更 
容易 。 

(3) 用 低 维 的 “词汇 -文本 ”关联 空间 代替 了 原来 的 “词汇 -文本 ”独立 空间 ,可 以 有 效 
地 处 理 大 规模 的 文本 集 , 有 效 地 提高 了 检索 的 效率 和 准确 性 。 

(4) LSI 不 同 于 传统 的 自然 语言 处 理 过 程 和 人 工 智能 程序 , 它 是 完全 自动 的 。 所 谓 自 
动 , 就 是 LSI 不 需要 人 工 干 预 ,不 需要 预先 具有 语言 学 或 者 具备 相似 性 知识 ,不 使 用 人 为 
构造 的 字典 .知识 基础 .语义 网 络 文法 、 词 法、 句法 训 析 器 等 , 它 的 输入 只 是 原始 的 未 经 处 
理 的 文本 序列 。 它 完全 是 根据 普通 数学 学 习 方法 或 机 器 学 习 方 法 ,提取 合适 的 维度 语义 
空间 ,结合 其 他 信息 检索 理论 ,达到 有 效 展示 对 象 和 文本 内 容 的 语义 关系 目的 。 通 过 对 大 
量 的 文本 分 析 ,LSI 可 以 自动 地 模拟 人 类 的 知识 获取 能 力 , 甚 至 分 类 、 预 测 的 能 力 。 

潜在 语义 索引 模式 以 其 数学 理论 严谨 .处 理 文本 信息 过 程 思 路 清晰 得 到 了 信息 检索 
领域 的 重视 ,该 方法 在 语言 建 模 、 视 频 检 索 等 方面 取得 了 较为 成 功 的 应 用 ,在 朴素 贝 叶 斯 
分 类 模型 KNN 模型 和 VSM 模型 中 都 被 证 明 是 非常 有 效 的 方法 。 但 是 ,该 方法 也 存在 
着 一 些 不 足 之 处 : 

(1) 潜在 语义 在 进行 信息 提取 时 ,忽视 了 词汇 的 语法 信息 甚至 词汇 出 现 的 顺序 性 , 它 
仍然 是 一 种 Bag of word( 词 汇 包 ) 方 法 , 即 简单 地 通过 所 有 词汇 向 量 的 线性 拟 合 来 产生 文 
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本 向 量 ,表示 文本 的 含义 。 但 是 句子 的 语法 结构 包含 了 词汇 之 间 更 深层 次 的 语义 关联 信 
息 , 忽 视 这 种 关联 信息 在 一 定 程 度 上 影响 了 潜在 语义 对 文本 内 容 的 准确 性 把 握 , 虽 然 潜在 
语义 通过 新 的 空间 在 一 定 程 度 上 实现 了 降 维 。 

(2) 因子 & 值 的 选取 直接 关系 到 语义 空间 模型 的 效率 ,& 值 过 小 则 会 使 一 些 有 用 的 信 
息 丢 失 ,& 值 过 大 则 会 使 运算 复杂 量 增 加 ,但 是 & 值 是 一 个 可 变 的 参数 ,对 其 确定 是 很 困 
难 的 ,现在 还 没有 特别 好 的 办 法 来 解决 。 在 实际 中 ,人 们 一 般 只 能 通过 反复 的 实验 来 确定 
这 个 值 。 

(3) 奇异 值 分 解 对 存储 空间 的 要 求 很 大 ,运算 的 时 间 复 杂 度 很 高 。SVD( 语 义 向 量 划 
分 ) 算 法 的 时 间 代 价 是 OCN 外),N 是 单词 数 和 文本 数 的 乘积 , N 随 文本 数 和 单词 数 的 增 
加 而 迅速 增加 ,所 以 SVD 不 太 适 合 动 态 变 化 的 文本 集 。 


5.4.3 神经 网 络 检索 模型 

20 世纪 80 年 代 以 来 ,人 工 神经 网 络 研 究 取得 重大 进展 .有关 理 论 和 方法 已 经 发 展 成 
为 一 个 介 于 数学 .计算 机 科学 物理 学 .神经 生理 学 等 学 科 之 间 活 跃 的 交叉 研究 领域 。 作 
为 一 种 高 度 并 行 的 信息 处 理 方法 ,神经 网 络 模型 模拟 人 类 脑 神经 系统 的 结构 与 功能 ,并 以 
一 种 独特 的 方式 对 许多 具有 重大 理论 及 实际 意义 问题 的 解决 取得 了 突破 性 进展 。 

1. 神经 网 络 研究 概述 

神经 网 络 是 指 由 大 量 神经 元 相互 连接 在 一 起 所 组 成 的 神经 结构 ,把 神经 元 之 间 相 互 
作用 的 关系 进行 数学 模型 化 就 可 以 得 到 神经 网 络 模型 。 因 此 ,神经 网 络 模型 主要 来 源 于 
对 人 脑 神经 系统 结构 与 功能 的 模拟 ,无 论 是 单个 神经 细胞 (或 神经 元 ) ,还 是 神经 网 络 的 构 
成 与 作用 方式 。 

研究 表明 ,人 脑 是 由 约 102 量 级 个 神经 元 构成 的 ,而 每 一 个 神经 元 可 以 看 做 是 一 个 基 
本 的 初等 信号 处 理 器 。 在 一 个 神经 元 中 ,有 信号 的 输入 通道 ( 即 树 突 ) 和 信号 的 输出 通道 
( 即 轴 突 )。 当 信号 从 一 个 神经 元 经 过 连接 通道 ( 即 突 触 ) 传 递 到 另 一 个 神经 元 时 ,一 个 相 
当 复杂 的 生物 物理 及 生物 化 学 过 程 发 生 了 ,并 可 能 产生 两 种 不 同 的 效果 : 接受 信号 的 神 
经 元 或 者 被 激发 ,或 者 被 抑制 。 处 于 激发 态 的 神经 元 又 会 产生 新 的 脉冲 信号 , 传 向 处 于 下 
游 的 每 一 个 与 之 相连 的 神经 元 ,并 引起 下 游 神 经 元 不 同 的 激发 与 抑制 反应 ;而 处 于 抑制 态 
的 神经 元 则 不 产生 任何 脉冲 输出 。 上 述 信号 传递 与 处 理 过 程 在 整个 神经 系统 的 相关 神经 
元 之 间 不 断 重复 进行 ,形成 了 人 脑 细 胞 的 信号 传播 激活 机 制 , 并 最 终 表现 为 : 接受 并 处 理 
输入 信号 ,然后 做 出 各 种 肢体 或 情绪 上 的 反应 。 

值得 注意 的 是 ,不 同 神经 元 之 间 的 连接 强度 是 不 同 的 ,而 且 连 接 强 度 也 不 是 一 成 不 变 
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的 。 通 常 连接 或 作用 强度 会 随 其 激发 与 抑制 行为 的 相关 性 时 间 的 平均 值 成 正比 ,这 表明 
神经 系统 具有 某 种 可 塑性 。 

人 工 神经 网 络 (artificial neural networks, ANN) ,被 称 为 神经 网 络 ,是 人 工 智能 研究 
的 一 个 重要 领域 。 它 是 一 个 数学 模型 ,通过 模仿 动物 行为 特征 进行 神经 网 络 模型 算法 分 
析 , 并 进行 信息 处 理 。 通 过 调整 节点 之 间 的 连接 数目 来 实现 处 理 信息 的 目的 。 

神经 网 络 的 工作 过 程 分 为 两 个 方面 ,首先 是 训练 期 (也 叫做 学 习 期 ), 通 过 测试 信号 的 
指导 (有 监督 的 情况 ) 来 训练 样本 ,根据 训练 样本 不 断 调整 网 络 中 边 的 连接 权 值 。 训 练 期 
之 后 是 工作 期 ,在 此 期 间 , 神 经 网 络 的 各 个 连接 边 的 权 值 保持 不 变 , 而 对 测试 样本 进行 输 
入 计算 ,以 实现 对 测试 样本 的 打分 。 

一 种 常用 的 神经 网 络 模 型 是 基于 反 向 传播 学 习 算 法 (back propagation learning 
algorithm,BP), 它 的 训练 包括 两 个 过 程 ,包括 正 向 传播 和 反 向 传播 。 在 正 向 传播 过 程 中 ， 
信息 从 输入 层 向 输出 层 传播 ,中 间 可 能 经 过 零 层 到 多 层 。 在 输出 层 根据 实际 输出 和 期 望 
输出 进行 比较 ,得 到 误差 。 反 向 传播 过 程 则 是 把 输出 层 的 误差 信息 从 输出 层 逐 层 地 往 回 
传播 ,利用 误差 信息 调整 各 连接 边 的 权 值 ,使 得 误差 信息 变 小 ,以 此 达到 训练 目的 。 

2. BP 神经 元 

图 5-10 给 出 了 第 j 个 基本 BP 神经 元 , 它 模 仿 了 生物 神经 元 所 具有 的 最 核心 也 是 最 
基础 的 功能 : 加 权 、 求 和 和 转移 。 其 中 zi,zz,，……zi…vzn 分 别 代表 来 自 神经 元 1,2,…， 
1 的 输入 ;to ytwjz ti wn 则 分 别 表示 神经 元 1,2,… ,i,…,n 与 第 j 个 神经 
元 的 连接 强度 , 即 权 值 ;4b; 为 国人 值 ;/(。) 为 传递 函数 ;yw 为 第 j 个 神经 元 的 输出 。 


让、 | 

二 

ee z 上 -Lo 一 一 
一 两 


六 


图 5-10 ”BP 神经 元 
第 j 个 神经 元 的 净 输 入 值 5S; 为 
Sj; = Dw Xzitbh; = W;XX+b (5-28) 
i=1 


其 中 : X= [xix rin a], W, = [ww TUR …zem], 若 视 Xo =1,wjo =b;, 即 令 X 及 
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Wj 包括 ze 及 wjo, 则 
X= [zoxiz2""*Zzi""xn | , W;= [aoromnroiz twin | 


于 是 节点 j 的 净 输 入 值 5; 可 表示 为 
SYS Sg = WXX (5-29) 
净 输入 S; 通过 传递 函数 (transfer nn /(，) 后 , 便 得 到 第 j 个 神经 元 的 输出 y1: 
y= f(y= 7( Du Xzi)= F(W; xX X) (5-30) 


式 中 /(。) 是 单调 上 升 函 数 ,而 且 必 须 是 有 界 函 数 ,因为 细胞 传递 的 信号 不 可 能 无 限 增 
加 , 必 有 一 最 大 值 。 

3. 神经 网 络 基本 原理 

BP 神经 网 络 算法 是 由 数据 流 的 向 前 计算 ( 正 向 传播 ) 和 误差 信号 的 反 向 传播 两 个 过 
程 构成 。 正 向 传播 时 ,传播 方向 由 输入 层 , 经 隐 层 传输 到 输出 层 , 每 层 神经 元 的 状态 变化 
会 影响 到 下 一 层 神 经 元 的 状态 值 。 如 果 在 输出 层 得 到 的 不 是 预期 输出 值 , 则 将 误差 值 反 
馈 给 前 一 层 神经 元 ,进行 反 向 传播 流程 。 通 过 这 两 个 过 程 反 复 交 替 进行 ,使 权 向 量 空间 误 
差 函 数 梯度 逐渐 下 降 , 动 态 迭 代 寻 找 最 优 权 向 量 ,使 网 络 误差 函数 达到 最 小 值 , 从 而 完成 
神经 网 络 的 学 习 过 程 。 

1) 正 向 传播 

设 BP 神经 网 络 的 输入 层 存在 个 节点 , 隐 层 存在 gq 个 节点 ,输出 层 存在 个 节点 ， 
输入 层 与 隐 层 之 间 的 权 值 分 别 为 va , 隐 层 与 输出 层 之 间 的 权 值 分 别 为 wi ,如 图 5-11 所 
示 。 隐 层 的 传递 函数 为 广 (。) ,输出 层 的 传递 函数 为 /2(，) ,根据 BP 神经 网 络 算法 原 
理 , 得 隐 层 节点 的 输出 为 


z= fi( Dv xz) k=1,2,.,g (5-31) 
输出 层 节 点 的 输出 值 为 和 

we = Po ea) 了 = 1,2,°,m (5-32) 
通过 上 述 原理 ,BP 神经 网 络 则 完成 了 nn 维 空间 向 量 对 mm 维 空间 向 量 的 映射 。 


2) 反 向 传播 
(1) 定义 误差 函数 
输入 学 习 样 本 数 P 个, 分别 用 xz! ,zx?,…,zx? 进行 表示 ,假设 第 zp 个 学 习 样 本 输入 到 
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Xl ww 


| 


图 5-11 三 层 BP 神经 网 络 的 拓扑 结构 示意 图 


网 络 后 得 到 输出 值 为 : yf 二 1,2,…,m)。 采 用 平方 型 误差 函数 ,于 是 得 到 第 p 个 样本 的 
误差 值 E,: 
B= (好 一 区 7 (5-33) 
其 中 : 尹 为 期 望 输出 
则 对 于 p 个 样本 ,整个 过 程 中 的 误差 可 以 表示 为 
= 了 D4 一») = ZE; (5-34) 


(2) 输出 层 权 值 变 化 
采用 累积 求 和 误差 BP 神经 网 络 算法 调整 wx ,使 得 全 局 误差 下 变 小 , 即 


， aE, oFE, . 
Ar 7 vox 73 (DE)= >( a ) (5-35) 
其 中 : 7 一 一 学 习 效 率 。 然 后 ,定义 误差 值 为 
9E» __ 9E, 9y; 
9 9 人 95， (5-36) 
式 一 为 
aE, , 可 
《下 fs p p -37 
9yi | > by ] 9 9) (5-37) 
式 三 为 
9 . 
325; 一 (Si) (5-38) 
为 输出 层 函 数 的 导数 。 


于 是 可 以 得 到 


一 >) (此 一 岁 ) Fa(CS)) 
各 


由 相关 定理 可 得 
aE, _ aE, as; a a 
Xe De 


于 是 输出 层 各 神经 元 的 权 值 调整 公式 : 
p 


Awx = >) D7 — yf) fa Si) 


p=1 j=1 


(3) 隐 层 权 值 的 变化 


yy) (CSi) X zi 


aE 加 _ aEp 
Amw 于 QU 73 (D5) -7 7 gow ) 
定义 误差 信号 值 为 
aE, a9E, dz 
9Sx bE DSx 
其 中 式 一 为 
aE, Lp 
xk bE [ 2 安信 由? ] De 7) Ozk 
根据 相关 定理 有 
9y; _ 9% x95; 一 a 
9 二 f 2S)) wn 
式 二 为 
总 = = 天 CS) 
是 隐 层 传递 函数 的 导数 方程 。 
于 是 可 以 得 到 
pa = D0 — yf2(S;) waf' Si) 
由 相关 定理 可 得 


aE, FE、 9Si 
gw gS gu 


= 


= 一 Dy )fu(S) waf (Si) Xz 


从 而 得 到 隐 层 中 各 神经 元 的 权 什 调 整 公式 为 
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(5=39) 


(5-40) 


(5-41) 


(5-42) 


(5-43) 


(5-44) 


(5-45) 


(5-46) 


(5-47) 


(5-48) 
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4. 神经 网 络 的 基本 特性 

神经 网 络 应 用 于 信息 检索 ,只 是 该 模型 的 一 个 具体 应 用 领域 。 目 前 ,对 于 大 规模 的 文 
档 集 合 , 运 用 神经 网 络 模型 能 否 取 得 良好 的 检索 性 能 ,还 有 待 于 继续 验证 及 相关 实验 数据 
的 支持 。 不 过 ,作为 一 类 数学 模型 ,神经 网 络 已 经 在 非常 广泛 的 领域 获得 了 惊人 的 成 功 应 
用 。 例 如 ,手写 体 邮 政 编码 判读 .自动 驾驶 .组合 优化 .自动 分 类 .生物 神经 活动 过 程 模 
拟 等 。 

虽然 从 神经 生理 学 观点 来 看 ,神经 网 络 模型 是 极端 简化 的 ,是 对 人 脑 高 级 神经 活动 的 
粗糙 近似 ,但 由 于 其 对 神经 活动 基本 特征 的 准确 捕捉 ,神经 网 络 模型 蕴含 着 巨大 的 理论 价 
值 与 应 用 潜能 。 特 别 是 1985 年 ,美国 加 州 大 学 的 一 个 研究 小 组 提出 了 “后 向 传播 "(back- 
propagation,B-P) 算 法 ,解决 了 长 期 困扰 研究 人 员 的 一 个 难题 。B-P 算法 主要 用 于 寻找 一 
组 适当 的 权 值 ,以 使 网 络 具 有 特定 的 功能 。B-P 算法 的 出 现 ,直接 促成 了 此 后 有 关 该 模型 
研究 活动 的 迅猛 发 展 。 直 到 今天 ,神经 网 络 已 发 展 成 为 一 个 被 广泛 关注 和 探讨 的 、 成 果 丰 
硕 的 研究 领域 。 

总 体 上 ,神经 网 络 模型 的 基本 属性 有 : 吕 非 线性 : 人 脑 的 思维 是 非 线性 的 ,故人 工 神 
经 网 络 模拟 人 的 思维 也 应 是 非 线性 的 ; @ 非 局 域 性 : 非 局 域 性 是 人 的 神经 系统 的 一 个 特 
性 ,人 的 整体 行为 是 非 局 域 性 的 最 明显 体现 ,神经 网 络 以 大 量 的 神经 元 连接 模拟 人 脑 的 非 
局 域 性 , 它 的 分 布 存 储 是 非 局 域 性 的 一 种 表现 ; 加 非 定常 性 : 神经 网 络 是 模拟 人 脑 思维 运 
动 的 动力 系统 , 它 应 按 不 同时 刻 的 外 界 刺 激 对 自己 的 功能 进行 修改 ,因而 它 是 一 个 时 变 的 
动态 系统 ; @ 非 凸 性 : 神经 网 络 的 非 凸 性 即 是 指 它 有 多 个 极 值 , 也 即 系统 具有 不 只 一 个 的 
较 稳定 的 平衡 状态 ,这 种 属性 会 使 系统 的 演化 多 样 化 ,神经 网 络 的 全 局 优化 算法 就 反映 了 
这 一 点 。 


WO— yf Swaf Sz: (5-49) 


a 


p=1 j=1 


5.5 概率 论 检索 模型 


概率 论 模 型 主要 基于 概率 论 原理 来 理解 和 解决 信息 检索 问题 。 在 概率 理论 的 框架 基 
础 上 ,目前 提出 的 检索 模型 主要 有 早期 的 经 典 概率 模型 (又 称 为 “二 值 独立 检索 模型 ”, 即 
binary independence retrieval, BIR)、 基 于 Bayesian 网 络 的 推理 网 络 模型 (inference 
network model) 和 信念 网 络 模型 (belief network model) 等 。 
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5.5.1 经 典 概率 检索 模型 

1. 经 典 概率 检索 模型 的 基本 思想 

经 典 概率 模型 是 一 种 实现 简单 .检索 效果 较 好 的 信息 检索 模型 ,最 早 于 1976 年 由 英 
国 城市 大 学 的 罗 伯 撑 (S. E. Robertson) 和 斯 帕克 -琼斯 (K. Sparck-Jones) 提 出 。 它 是 基于 
一 个 基本 概率 假设 原理 的 : 给 定 一 个 用 户 的 查询 请 求 和 集合 中 的 一 篇 文档 dj ,概率 模型 
尽量 评估 用 户 找到 相关 的 文档 必 的 概率 。 模 型 假设 相关 的 概率 只 依赖 于 查询 请 求 和 文 
档 的 描述 。 并 且 , 假 设 针对 查询 请 求 g, 存 在 一 个 结果 集 的 子 集 。 

经 典 概率 检索 模型 的 基本 指导 思想 是 给 定 一 个 用 户 提问 , 则 信息 检索 系统 中 存在 着 
一 个 与 该 提问 相关 的 理想 检索 命中 结果 集合 ,这 里 用 R 表示 ,如 果 能 已 知 几 何 R 的 主要 
特征 及 其 描述 , 则 用 户 的 检索 要 求 便 不 难 实现 。 但 问题 是 : 在 用 户 提 出 检索 要 求 时 ,并 不 
知道 这 个 理想 结果 几何 的 特性 。 为 此 .需要 在 检索 伊始 对 R 的 特性 进行 某 种 猜测 。 根 据 
初试 的 猜测 ,系统 将 检索 到 一 个 初步 的 命中 结果 集合 。 在 此 基础 上 ,用 户 可 以 对 初始 检索 
结果 集合 中 文档 相关 与 否 进 行 判断 ,或 者 由 系统 对 检索 结果 文档 的 相关 性 情况 进行 自动 
判别 。 根 据 这 些 反馈 信息 ,系统 便 可 以 在 后 续 的 检索 处 理 中 不 断 做 出 优化 与 改进 ,从 而 在 
多 次 交互 之 后 使 检索 结果 逐步 接近 该 检索 提问 的 理想 命中 结果 集合 R。 

2. 经 典 概率 检索 模型 原理 

(1) 原理 推论 一 : 在 经 典 概率 检索 模型 中 ,信息 文档 和 用 户 检索 提问 仍 用 前 述 的 索引 
词 向 量 来 表示 ,并 且 每 一 个 索引 词 的 权 值 为 二 值 的 , 即 Wi,; € 10,1},Wi,; E10,1)。 给 定 
一 个 用 户 检 索 提 问 q, 则 相关 文档 集合 dj ,同时 令 P(R1d;) 表 示 文 档 d; 与 提问 4g 相关 的 概 
率 ,P(Rc|d;) 表 示 文 档 dj; 与 提问 gq 不 相关 的 概率 , 则 d; 和 gq 之 间 的 相似 度 sim(qd;,q) 可 
以 定义 为 


sim(d;,qg) = P(R | 4d))/P(Re | d)) (5-50) 
(2) 原理 推论 二 : 利用 贝 叶 斯 (Bayes) 公 式 ,sim(d ,q) 变 换 为 
sim(d;,qg) = (P(d;/R) x P(R)/P(d;/Re) x PCR)) (5-51) 


上 式 中 ,P(d;/R) 表 示 从 相关 文档 集合 R 中 随机 选择 文档 di 的 概率 ,或 者 说 文档 d; 
属于 相关 文档 集合 R 的 概率 ;P(d;/Rc) 表 示 从 非 相关 文档 集合 Re 中 随机 选择 文档 dj 的 
概率 ,也 即 文档 d; 属于 非 相关 文档 集合 Re 的 概率 ;P(R) 和 P(Rc) 则 分 别 表 示 在 整个 文 
档 集 合 随机 选择 一 篇 文档 是 相关 和 不 相关 时 的 先 验 概率 。 

(3) 原理 推论 三 : 由 于 P(R) 和 P(Rc) 的 值 对 于 所 有 文档 来 说 都 是 一 样 的 ,又 假定 索 
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引 词 之 间 是 相互 独立 的 , 则 有 
sim(di ,9g) co (HariP (ki | R)) x (aoP(Nonk; | R)) 
/Hap Pk | Re) X (Hacay-o P(Nonk:; | Re)) (5-52) 
式 中 ,P(k;|R) 和 P(Nonk;|R) 分 别 表 示 从 文档 集合 R 中 随机 选择 一 篇 文档 ,其 中 含 
有 索引 词 入 和 不 含有 索引 词 &; 时 的 概率 ;类 似 地 ,P(k|Rc) 和 P(Nonk;i|Rce) 分 别 表示 从 
非 相关 文档 集合 Re 中 随机 选择 一 篇 文档 ,其 中 含有 索引 词 和 和 不 含有 索引 词 &; 时 的 
(4) 原理 推论 四 : 考虑 到 有 :PCki|R) 十 P(Nonki|R)=1 
Plki | Re) + P(Nonk; | Re) = 1 (5-53) 
对 上 式 取 对 数 ,再 忽略 掉 一 些 常 数 因子 ,最 终 可 得 到 


sim(d;,q) oo > Was X Ws Xlog[L(P(ki | R)X (1 — Plk; | Re))) 
i=1 


/(P(ki | Re) X (1— Plki | R))] (5-54) 
进一步 地 ,可 以 简 记 为 
sim(d,g) co > ylog[(P(CA | R) x (1 一 PC | Re))) 
/(PC | Re)) x (1 一 PC | R))]J (5-55) 
(5) 原理 推论 五 : 由 于 R 一 开始 时 并 不 是 已 知 的 ,因此 ,要 计算 sim(d;,q) ,首先 需要 
提供 对 概率 值 PCA;|R) 和 P(k;|Re) 的 计算 方法 。 
目前 ,关于 PCki|R) 和 P(ki| Rc) 的 计算 方法 已 有 多 种 。 在 开始 检索 前 ,一 般 做 如 下 
的 简单 初始 假定 ,以 启动 检索 进程 。 
Q@ 对 于 所 有 索引 词 &;(i 二 1,2,3,…,1),P(k;|R) 的 值 都 是 常数 ,并 且 通 常情 况 下 规 
定 为 


Plk; | R) = 0.5 
@ 词 在 非 相 关 文 档 集合 中 的 概率 分 布 近 似 于 索引 词 在 全 体 文档 集合 中 的 概率 分 
布 , 即 
PC | Re) = n/N (5-56) 
这 里 ,n 和 NN 的 含义 同 前 ,分 别 表示 含 索引 词 A 的 文档 数 和 系统 拥有 的 全 体 文档 数 。 
(6) 原理 推论 六 : 根据 上 述 初始 假定 ,针对 用 户 提问 4 的 信息 检索 操作 就 可 以 获得 一 
批 相关 文档 。 这 里 不 妨 用 V 来 表示 这 批 排序 输出 文档 集合 中 最 靠 前 的 x 个 文档 (x 是 一 
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个 预先 指定 的 冰 值 )。 进 一 步 地 ,用 V; 表示 集合 V 中 含有 索引 词 A; 而 形成 的 文档 集合 ， 
Vi 中 的 文档 数量 为 x; 个。 为 改善 检索 结果 ,经 典 概率 模型 需要 考虑 对 上 述 PCA |R) 和 
P(ki|Re) 的 初始 计算 方法 加 以 改进 。 基于 相关 信息 检索 反馈 调整 原理 ,常用 的 改进 方案 
主要 有 : 

(1) P(k;|R)=ri/r 


PC | Re) = (ni;—r)/(N—7) (5-57) 
(2) P(Ri|R)=(ri+0.5)/(r+1) 
Plki | Re) = (nm—rit+0.5)/(N—r+1) (5-58) 
(3) P(ki|R)=(ritni/N)/(r+1) 
Plki | Re) = (ni—rit+n/N)/(N—r+1) (5-59) 


采用 以 上 任何 一 组 PCki|R) 和 P(ki|Rc) 的 计算 公式 ,并 多 次 重复 检索 操作 及 反馈 调整 过 
程 ,因此 ,概率 模型 系统 便 可 有 效 完成 各 种 信息 检索 任务 。 

3. 经 典 概率 检索 模型 总 结 

从 本 质 上 来 讲 , 信 息 检 索 是 一 种 具有 不 确定 性 的 决策 判断 过 程 。 经 典 概率 模型 清楚 
地 认识 到 了 这 种 不 确定 性 (或 相关 性 ), 利 用 概率 论 原理 通过 赋 耶 索引 词 某 种 概率 值 来 表 
示 这 些 词 在 相关 信息 文档 集合 和 非 相 关 信 息 文 档 集合 中 的 出 现 概 率 , 然 后 计算 某 一 给 定 
文档 与 某 一 给 定 用 户 提问 相关 的 概率 并 做 出 检索 决策 。 不 同 于 布尔 模型 和 向 量 空间 模 
型 ,概率 模型 具有 一 种 内 在 的 相关 反馈 机 制 , 它 把 检索 处 理 过 程 看 做 是 一 个 不 断 逼 近 并 且 
最 终 确认 命中 信息 文档 集合 的 过 程 ,并 通过 运用 某 种 归纳 式 学 习 方 法 实现 系统 对 检索 结 
果 的 优化 与 完善 。 因 此 概率 检索 模型 对 信息 检索 的 主要 理论 贡献 就 在 于 : 吸收 了 相关 反 
馈 原 理 , 并 在 理论 上 采用 了 一 种 更 严格 的 决策 方式 。 

经 典 概率 模型 虽然 是 一 种 基于 贝 叶 斯 决策 的 自 适 应 模型 ,具有 较 坚 实 的 理论 基础 ,但 
就 其 自身 来 说 ,仍然 存在 着 一 些 局 限 性 。 经 典 概率 模型 存在 的 局 限 性 主要 有 : 各 种 参数 
估计 难度 较 大 ;索引 词 权 值 的 计算 方法 为 0/1 式 ,没有 考虑 到 词 频 等 加 权 因素 ;沿用 了 索 
引 词 之 间 相 互 独立 的 基本 假设 。 


5.5.2 贝 叶 斯 网 络 检索 模型 

1. 贝 叶 斯 网 络 检索 模型 概述 

贝 叶 斯 网 络 建立 在 更 加 完善 的 网 络 模型 基础 上 , 贝 叶 斯 网 络 是 人 工 智能 领域 处 理 不 
确定 性 问题 的 主要 方法 。 不 同 于 那些 直接 影响 到 节点 诊断 的 方法 ,这 种 方法 的 节点 是 通 
过 四 个 末端 的 诊断 连接 在 一 起 的 。 正 是 由 于 这 方面 的 优势 ,因此 把 贝 叶 斯 网 络 应 用 于 信 
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息 检索 领域 是 很 自然 的 事情 ,为 了 使 贝 叶 斯 网 络 能 够 成 功 地 应 用 于 信息 检索 领域 ,已 经 取 
得 了 系列 研究 成 果 ,在 传统 的 信息 检索 领域 先后 出 现 了 三 种 基于 贝 叶 斯 网 络 检索 模型 ,分 
别 是 : 推理 网 络 模型 (inference network model) .信念 网 络 模型 (belief network model) 和 
贝 叶 斯 网 络 检索 模型 (aayesian network retrieval model) 。 

贝 叶 斯 网 络 检索 模型 是 概率 理论 的 一 个 主要 研究 分 支 。 通 常 , Bayesian 网 络 可 以 看 
做 是 一 个 有 向 非 循 环 图 (directed acyclic graph， 
DAG)。 图 中 的 节点 一 般 用 来 表示 随机 变量 ,有 向 
边 用 于 描述 随机 变量 之 间 的 因果 关系 , 它 由 表示 
原因 的 随机 变量 ( 父 节 点 ) 指 向 代表 结果 的 随机 变 
量 ( 子 节点 ), 而 因果 关系 影响 力 的 大 小 (或 权 值 ) 
则 用 条 件 概 率 来 表示 ,图 中 没有 父 节点 的 节点 称 图 5-12 简单 贝 叶 斯 网 络 实例 图 
为 根 (root)。 

Bayesian 网 络 可 以 用 联合 概率 分 布 的 方式 表达 节点 之 间 的 依赖 关系 。 对 于 图 5-12, 具 
体 表 示 如 下 : 


PCziyzzyzayZeayZ5) 
= P(xi)P(zxz | zi)P(Czs | zi)PCz | zzyzs)P(zs | zs) (5-60) 

上 式 中 ,P(xzi) 称 为 是 网 络 的 先 验 概率 (prior probability), 它 由 具体 应 用 系统 的 已 有 
知识 和 语义 来 定义 或 决定 ;其 余 各 项 则 称 为 条 件 概率 (conditional probability) ; 而 联合 概 
率 分 布 PCz ,za ,zavzivzs) 就 描述 了 该 Bayesian 网 络 。 

2. 网 络 检索 模型 推理 

推理 网 络 模型 采用 的 是 信息 检索 认识 论 的 观点 ,该 模型 中 文档 节点 用 d; 表示 ,术语 
节点 用 k; 表示 ,查询 节点 用 g 表示 。 文 档 节点 、 术 语 节 点 、 查 询 节点 均 与 用 相同 符号 表示 
的 二 进 制 随机 变量 相关 。U 三 {ki,k,，… ,ki} 表示 1 维 的 向 量 空间 ,变量 ,ki，…,k, 为 
U 定义 了 2: 种 状态 ,u 表示 其 中 一 种 状态 。 

根据 查询 g 对 文档 4; 进行 排序 ,其 结果 可 以 用 来 度量 d; 的 观测 值 为 查询 g 提供 了 多 
少 证 据 支 持 。 在 推理 网 络 中 ,文档 d; 的 排序 可 用 P(gld;) 来 计算 ,其 计算 方法 如 下 : 


Prey Ee Pe = 0B (qd) (6-61) 
了 


其 中 a 是 一 个 常数 因子 ,因为 没有 对 任何 文档 给 出 特定 的 先 验 概 率 , 所 以 一 般 采 用 一 


个 统一 的 先 验 概率 分 布 ,在 有 关 推 理 网 络 的 早期 著作 中 ,规定 观测 一 篇 文档 4; 的 先 验 概 
率 为 1/n,N 为 系统 中 的 信息 文档 总 数 ,因而 : 
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1 
PCw) = 十 
二 (5-62) 


N 
利用 基本 条 件 及 贝 叶 斯 定理 , 式 (5-62) 可 变 为 下 式 : 
plg | dj;) =aP (gq,d;) 
=8> PoloOx( I PGla)x ITIL Pil|ad)) (5-63) 
Vu 


Vilgi CW=1 Vilgi(W =0 

3. 信念 网 络 检索 模型 

信念 网 络 检索 模型 也 是 基于 概率 认识 论 描述 的 ,但 是 这 种 模型 采用 的 是 一 个 明确 定 
义 的 样本 空间 ,因而 产生 了 一 种 不 同 于 推理 网 络 的 网 络 拓扑 ,即将 网 络 中 的 信息 文档 和 用 
户 查 询 分 离开 来 。 

在 信念 网 络 中 ,术语 集合 口 =={&,k,，,…,k,} 是 一 个 论 域 (discourse) ,同时 为 信念 网 络 
模型 定义 了 样本 空间 。uCU 是 UU 的 一 个 子 集 , 且 gi(u) 二 1Ok;Eu。 每 个 索引 术语 被 看 
做 是 一 个 基本 概念 ,因此 U 被 看 做 是 一 个 概念 空间 ,概念 是 U 的 子 集 。 文 档 和 用 户 查 
询 用 概念 空间 U 中 的 概念 表示 。 定 义 在 样本 空间 U 上 的 概率 分 布 P 如 下 所 示 ,c 是 空间 
U 中 的 一 个 概念 ,表示 一 篇 文档 或 一 个 用 户 查询 : 

pO) = Dple|w x pl) (5-64) 


Vu 


pl) = (去 ) (5-65) 

式 (5-64) 将 p(c) 定 义 为 空间 U 中 c 的 覆盖 度 (degree of coverage) , 式 (5-65) 表 示 概 

空间 中 的 所 有 概念 均 是 等 概率 发 生 的 。 

与 给 定 查询 g 相关 的 文档 4; 的 排序 被 理解 为 一 种 概念 匹配 关系 , 它 反 映 了 概念 g 提 
供给 概念 d; 的 覆盖 度 。 因 此 在 信念 网 络 中 用 p(d;1gq) 计 算 文 档 4d; 关于 查询 g 的 排序 。 
根据 条 件 概 率 、 公 式 (5-65) 及 贝 叶 斯 定理 可 得 

pld; | gq) = aP(dj;,g) = 127P(d ,2 XPlg|u) (5-66) 


其 中 ;为 规范 化 因子 ,对 概率 p(d;|ww)、 pg| a) 的 不 同 定义 可 使 信念 网 络 检索 模型 包 
括 由 各 种 经 典 信息 检索 模型 (布尔 模型 .矢量 模型 .概率 模型 ) 产 生 的 排序 策略 。 

4. 简单 贝 叶 斯 网 络 检索 模型 

简单 贝 叶 斯 网 络 检 索 模 型 中 的 变量 由 两 个 不 同 的 集合 组 成 ,V 二 TU D: 集 合 T= 
{T ,Tv ,Tum) ,集合 D 二 {D1,…, Dn},T 和 D 中 的 变量 均 是 二 值 的 。 变量 Di 取 值 集 


128 /大 学 生 信 息 检索 素养 教程 


合 为 {dj,d;} ,其 中 d; 和 d; 分 别 表示 在 给 定 查询 下 文档 D; 不 相关 和 相关 。 变 量 Ti 取 值 
集合 为 {大 ,4;) ,其 中 石和 4 分 别 表 示 术 语 不 相关 和 相关 。 

网 络 拓扑 结构 的 建立 基于 以 下 三 个 假设 。 

(1) 如 果 术 语 T; 属于 文档 D;, 则 术语 节点 T; 和 文档 节点 D; 之 间 有 弧 。 这 反映 了 文 
档 和 其 索引 术语 之 间 的 依赖 关系 。 

(2) 文档 节点 之 间 没有 弧 , 也 就 是 说 文档 节点 之 间 的 关系 只 是 通过 索引 它们 的 术语 
表示 出 来 。 

(3) 已 知 文档 D; 中 索引 术语 是 否 相关 的 情况 下 ,文档 D; 和 其 他 任何 文档 D 是 条 件 
独立 的 ,也 就 是 说 文档 Di 是 否 相关 只 受 索 引 它 的 术语 影响 ,而 不 受 其 他 文档 的 影响 。 在 
网 络 中 表现 为 弧 的 指向 是 由 术语 节点 指向 文档 节点 。 

由 这 三 个 假设 最 终 确 定 网 络 的 拓扑 结构 。 网 络 包 括 两 个 子 网 : 术语 子 网 和 文档 子 
网 , 弧 是 由 第 一 个 子 网 中 的 节点 指向 第 二 个 子 网 中 的 节点 。 该 模型 与 推理 网 络 模型 和 信 
念 网 络 模型 最 大 的 区 别 是 在 网 络 中 没有 包含 查询 节点 ,也 就 是 说 该 模型 是 独立 查询 的 , 查 
询 只 是 作为 证 据 在 网 络 中 传播 。 

在 BNR 模型 各 类 节点 中 存储 的 条 件 概率 计算 如 下 

(1) 对 根 术语 节点 需要 存储 边缘 相关 概率 p (4) 和 不 相关 概率 2(5) ,可 以 使 用 


PCD 一 1/ 加) 得 到 p( 太 二 1 一 p(4) 一 了 于 ,其 中 M 为 集合 中 术语 的 数目 。 


(2) 对 于 文档 节点 需要 估计 条 件 概 率 分 布 p(dj1x(D;)), 其 中 x(D;) 是 D; 的 父 节点 

集 I(D;) 取 值 后 的 任意 一 种 组 合 。 因 为 文档 节点 可 能 有 大 量 的 父 节点 ,所 以 需要 估计 和 

存储 的 条 件 概 率 的 数目 是 很 巨大 的 。 因 此 ,简单 贝 叶 斯 网 络 检索 模型 采用 了 专门 的 正则 
模型 来 表示 条 件 概 率 : 

pldij|x(D)= > WwW; (5-67) 


TiERGD;)) 
其 中 R(x(D;)) 是 x(D)) 中 相关 术语 的 集合 ,权重 wi 满足 wi; 宇 0 有 >W,<1。 这 样 
在 x(D;) 中 的 相关 术语 越 多 ,D; 的 相关 概率 就 越 大 。 

简单 贝 叶 斯 网 络 中 节点 的 数目 通常 比较 大 ,节点 之 间 的 连接 也 是 多 路 径 的 ,每 个 节点 
也 可 能 包含 大 量 的 父 节点 ,所 以 考虑 到 检索 的 效率 问题 ,一 般 的 推理 算法 是 不 能 使 用 的 。 
因此 ,简单 贝 叶 斯 网 络 检索 模型 设计 了 特殊 的 推理 过 程 可 以 非常 有 效 地 计算 需要 的 概率 ， 

并 且 证 明了 得 到 的 结果 和 在 整个 网 络 中 实施 精确 推理 得 到 的 结果 是 一 样 的 : 
zlQ)= > Wi:plt|Q) (5-68) 


TE Pa(D,) 
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根据 术语 子 网 的 拓扑 结构 , 则 当 TiEQ 时 ,plQ)=1; 当 TiEQ 时 ， ,p(w1Q)= 击 ， 
这 时 公式 (5-68) 可 改写 为 
plad|l®M= DD Witti YD w (5-69) 


TiEPa(D INQ Mr, ea ya 


其 中 权重 Ws 有 多 种 不 同 的 计算 方法 。 
5.6 其 他 检索 模型 的 一 般 数学 原理 


集合 论 模型 .代数 模型 和 概率 论 模 型 的 一 个 共同 点 是 : 都 建立 在 对 信息 内 容 特 征 的 
标 引 与 匹配 的 一 般 数 学 原理 上 。 长 期 以 来 ,对 这 些 模型 的 理论 探讨 及 实验 验证 ,一 直 是 信 
息 检索 领域 的 主要 研究 任务 。 但 是 , 随 着 信息 资源 类 型 的 不 断 丰 富 ,信息 检索 的 匹配 机 制 
与 标准 也 在 不 断 发 展 , 除 传统 的 信息 内 容 特征 外 ,信息 的 结构 (structure) 特 征 及 其 提取 成 
为 建立 新 型 信息 检索 工具 的 另 一 种 可 供 选 择 的 匹配 标准 。 另 外 , 随 着 WWW 网 络 环境 的 
日 益 普及 ,信息 检索 技术 也 在 发 生 着 变化 与 调整 ,在 WWW 超 文本 技术 的 支持 下 ,用 户 的 
信息 检索 除了 通过 索引 文档 的 查询 与 快速 匹配 外 ,浏览 方式 再 度 兴 起 并 流行 。 因 此 ,基于 
信息 结构 特征 匹配 的 检索 模型 和 浏览 式 检 索 模 型 逐渐 成 为 令 人 关注 的 、 新 的 研究 任务 , 同 
时 基于 内 容 的 视频 、 音 频 、 图 像 的 信息 检索 也 在 快速 发 展 ,以 适应 多 媒体 信息 检索 的 检索 


5.6.1 进化 计算 与 遗传 算法 

进化 计算 (evolutionary computation,EC) 这 一 术语 是 在 20 世纪 90 年 代 初 被 提出 的 。 
它 是 模拟 生物 进化 过 程 中 “优胜 劣 汰 ”的 自然 选择 机 制 和 遗传 信息 传递 规律 的 各 种 算法 的 
总 称 ,主要 用 来 解决 实际 中 的 复杂 优化 问题 。 目 前 ,进化 计算 主要 由 遗传 算法 (genetic 
algorithms,GA) .遗传 编程 (genetic programming,GP)、 进 化 策略 (evolution strategies， 
ES) 和 进化 编程 (evolutionary programming ,EP) 等 分 支 组 成 。 

1. 进化 计算 与 遗传 算法 的 产生 

生命 自从 在 地 球 上 诞生 以 来 ,就 开始 了 漫长 的 生物 进化 历程 ,低级 .简单 的 生物 类 型 
逐渐 发 展 为 高 级 .复杂 的 生物 类 型 。 人 其 中 
被 人 们 广泛 接受 的 是 达尔 文 的 自然 选择 学 说 。 达 尔 文 的 自然 选择 学 说 认为 : 遗传 和 变异 
是 决定 生物 进化 的 内 在 因素 。 其 中 ,遗传 是 指 父 代 和 子 代 之 间 在 性 状 上 存在 的 相似 现象 ; 
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变异 是 指 父 代 和 子 代 之 间 以 及 子 代 的 个 体 之 间 , 在 性 状 上 或 多 或 少 地 存在 差异 的 现象 。 
生物 的 遗传 特性 ,使 生物 界 的 物种 能 够 保持 相对 的 稳定 ;而 生物 的 变异 特性 ,使 生物 的 个 
体 产生 新 的 性 状 ,遗传 与 变异 推动 了 生物 的 进化 和 发 展 。 

大 自然 是 人 类 获得 灵感 的 源泉 。 将 生物 界 所 提供 的 答案 应 用 于 工程 问题 的 求解 被 实 
践 证 明 是 一 个 成 功 的 有 着 辉煌 前 景 的 方法 。 现 在 ,人 们 已 经 认识 到 进化 不 仅仅 是 生命 科 
学 的 范畴 ,进化 是 一 种 优化 的 过 程 ,可 以 在 计算 机 上 模拟 ,并 应 用 到 工程 领域 中 。 早 在 20 
世纪 60 年 代 初 ,美国 Michigan 大 学 的 霍 兰 德 (J. H. Holland) 教 授 就 意识 到 了 生物 进化 过 
程 中 蕴含 着 的 朴素 的 优化 思想 ,他 借鉴 了 达尔 文 的 生物 进化 论 和 备 德 尔 的 遗传 定律 的 基 
本 思想 ,并 将 其 进行 提取 、 简 化 与 抽象 ,提出 了 第 一 个 进化 计算 算法 即 遗传 算法 。1975 年 
出 版 了 他 的 专著 Adapiation in Natural and Artificial Systems ,标志 着 遗传 算法 的 正式 
诞生 。 在 这 本 专著 中 ,他 称 之 为 “Genetic Plans”, 详 细 阐 述 了 遗传 算法 的 基本 思想 和 结构 
框架 。“Genetic Algorithms” 一 词 首先 出 现在 J.D. Bagley 的 博士 论文 中 ,他 研究 了 遗传 
算法 在 博弈 论 ( 六 子 棋 ) 中 的 参数 搜索 ,这 是 遗传 算法 最 早 的 应 用 。 

图 5-13 原理 性 地 描述 了 自然 进化 与 遗传 算法 之 间 的 对 应 关系 。 遗 传 与 算法 的 结合 
体现 了 生物 科学 与 计算 机 科学 的 相互 渗透 .相互 融合 。 它 借鉴 生物 的 进化 思想 ,通过 计算 
机 模拟 物种 繁殖 过 程 中 父 代 遗传 基因 的 重新 组 合 与 优胜劣汰 ”的 自然 选择 机 制 的 共同 作 
用 ,用 来 解决 科学 与 工程 中 的 复杂 问题 。 


基因 型 表现 型 适应 型 
解码 
串 问题 的 目标 函数 解 的 
(染色 体 ) 可 行 性 评价 值 
编码 


图 5-13 自然 进化 与 遗传 算法 的 对 应 关系 
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遗传 算法 产生 后 ,在 20 世纪 80 年 代 以 前 ,并 没有 引起 人 们 的 关注 ,一 方面 是 因为 它 
本 身 还 不 成 熟 ; 另 一 方面 ,当时 的 计算 机 容量 小 ,计算 速度 慢 ,也 使 得 需要 较 大 计算 量 的 遗 
传 算法 难以 获得 实际 应 用 。 但 Holland 和 他 的 学 生 一 直 在 进行 坚持 不 懈 的 努力 ,进行 了 
理论 研究 ,并 开拓 其 应 用 领域 。 直 至 现在 , 仍 被 认为 是 遗传 算法 理论 基础 的 模式 定理 
(schema theorem) 就 是 在 这 个 阶段 提出 的 , 它 揭示 了 遗传 算法 的 内 部 机 理 和 解释 了 遗传 
算法 的 优化 能 力 。 进 入 20 世纪 80 年 代 , 遗 传 算法 迎 来 了 兴盛 发 展 时 期 ,无 论 是 理论 还 是 
应 用 都 成 了 研究 热点 。 尤 其 是 其 应 用 研究 显得 格外 活跃 ,给 遗传 算法 注入 了 新 的 活力 。 

2. 遗传 算法 中 的 基本 概念 

遗传 算法 是 遗传 学 和 计算 机 科学 相互 结合 .渗透 和 融合 而 形成 的 新 的 计算 方法 ,其 中 
使 用 了 许多 有 关 自 然 进 化 方面 的 基础 术语 ,例如 ， 

基因 (gene) : 控制 生物 性 状 的 遗传 物质 的 功能 单位 和 结构 单位 。 

染色 体 (chromosome) : 生物 遗传 物质 的 主要 载体 ,由 多 个 基因 组 成 。 

基因 座 (locus) : 染色 体 中 基因 的 位 置 。 

等 位 基因 (alleles) : 基因 所 取 的 值 。 

基因 型 (genotype): 染色 体 的 表示 模式 之 一 ,与 表现 型 密切 相关 的 基因 组 成 。 

表现 型 (phenotype) : 染色 体 的 表示 模式 之 一 , 指 生物 个 体 所 表现 出 来 的 性 状 。 

同一 种 基因 型 的 生物 个 体 在 不 同 的 环境 条 件 下 可 以 有 不 同 的 表现 型 。 因 此 ,表现 型 
是 基因 型 与 环境 相互 作用 的 结果 。 在 遗传 算法 中 ,染色 体 对 应 的 是 数据 或 数组 ,在 标准 遗 
传 算法 中 ,通常 是 由 一 维 的 串 结构 数据 来 表现 的 。 串 上 各 个 位 置 对 应 上 述 的 基因 座 , 而 各 
位 置 上 所 取 的 值 对 应 上 述 的 等 位 基因 。GA 处 理 的 是 染色 体 ,或 叫 基因 型 个 体 ,一 定数 量 
的 个 体 组 成 了 群体 (population) ,群体 中 个 体 的 数量 称 为 群体 规模 (population size) ,而 各 
个 个 体 对 环境 的 适应 程度 叫做 “适应 度 ”(fitness)。 另 外 ,在 执行 遗传 算法 时 ,必须 包含 两 
个 数据 转换 操作 。 

表现 型 到 基因 型 的 转换 : 把 搜索 空间 中 的 参数 或 解 转 换 成 遗传 空间 中 的 染色 体 或 个 
体 。 这 种 转换 又 称 编码 (coding) 操 作 , 即 GA 一 般 不 能 直接 处 理解 空间 的 解数 据 ,必须 通 
过 编码 将 它们 表示 成 遗传 空间 的 基因 型 串 结构 数据 。 

基因 型 到 表现 型 的 转换 : 前 一 转换 过 程 的 逆 过 程 ,也 称 为 译 码 (decoding) 操 作 。 

3. 遗传 算法 的 基础 理论 

由 于 遗传 算法 是 一 种 启发 式 的 有 向 随机 搜索 算法 ,在 进化 过 程 中 "是 否 收敛 到 全 局 最 
优 解 ?成 为 其 应 用 于 实际 问题 是 否 成 功 的 关键 。 然 而 ,Holland 的 模式 定理 并 没有 从 理论 
上 回答 遗传 算法 的 全 局 优化 性 , 它 只 是 研究 了 群体 中 部 分 特征 模式 的 样本 数目 随 进化 代 
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数 的 变化 规律 。 目 前 ,关于 遗传 算法 基础 理论 的 研究 在 三 个 方面 进行 , 即 Schema 理论 的 
拓展 与 深入 、 遗 传 算法 的 马 氏 链 分 析 、 遗 传 算法 的 收敛 理论 。 

1) Schema 理论 的 拓展 和 深入 

这 一 方面 的 工作 主要 包括 Schema 公式 的 进一步 讨论 与 拓展 。Radeliffe 在 其 一 系列 
工作 中 ,把 Schema 分 析 进 行 了 一 般 化 处 理 , 提 出 完整 的 forma 分 析 理 论 , 其 主要 工作 集中 
在 所 谓 遗 传 算 法 的 欺骗 函数 (deceive functions) 的 研究 上 。 所 谓 欺 骗 函 数 , 就 是 那些 对 遗 
传 算法 进行 误导 ,使 其 错误 地 收敛 到 非 全 局 最 优 解 状态 的 函数 。 一 旦 研究 清楚 一 个 函数 
是 遗传 算法 欺骗 函数 的 条 件 , 也 就 给 出 了 构造 块 假设 成 立 的 条 件 。 研 究 欺骗 函数 问题 的 
主要 方法 是 Walsh 变换 。 但 对 于 确实 有 严重 漏洞 的 隐 含 并 行 性 原理 ,目前 尚未 有 人 提出 
改进 办 法 ,人 们 对 这 一 遗传 算法 至 关 重 要 的 优点 知识 加 以 主观 信念 上 的 默认 与 支持 。 

2) 遗传 算法 的 马 氏 链 分 析 

近年 来 ,人 们 建立 起 了 遗传 算法 不 同形 式 的 马 氏 链 模型 ,对 遗传 算法 的 极限 行为 进行 
了 各 种 角度 的 剖析 。 遗 传 算法 的 马 氏 链 模 型 主要 有 三 种 ,分 别 是 种 群 马 氏 链 模 型 、Vose 
模型 和 Cerf 扰动 马 氏 链 模型 。 

种 群 马 氏 链 模 型 将 遗传 算法 的 种 群 迭 代 序列 视 为 一 个 有 限 状 态 马 氏 链 来 加 以 研究 。 
最 早 的 工作 属于 Goldberg, 主 要 是 运用 种 群 马 氏 链 转 移 概率 和 矩阵 的 某 些 一 般 性 质 ,分 析 
遗传 算法 的 极限 行为 ,但 转移 概率 的 具体 形式 很 难 表达 ,这 妨碍 了 对 遗传 算法 有 限时 间 行 
为 的 研究 。 

在 Vose 模型 中 ,种 群 的 状态 由 一 个 概率 向 量 表示 ,概率 向 量 的 维 数 为 所 有 可 能 个 体 
的 数目 ,第 i 个 个 体 在 种 群 的 个 数 比 例 (相对 概率 )。 当 种 群 规模 趋 于 无 穷 大 时 ,相对 概率 
的 极限 就 代表 了 每 一 个 个 体 在 种 群 中 出 现 的 概率 。 无 限 种 群 规模 假设 下 ,可 以 导出 表示 
种 群 的 概率 向 量 的 迭代 方程 。 通 过 对 这 一 迭代 方程 的 研究 ,可 以 探讨 种 群 概 率 向 量 的 迭 
代 方 程 。 通 过 对 这 一 迭代 方程 的 研究 ,可 以 探讨 种 群 概率 向 量 的 不 动 点 及 其 稳定 性 ,从 而 
导致 对 遗传 算法 极限 行为 的 认识 。 虽然 在 无 限 种 群 假设 下 ,Vose 模型 可 给 出 极限 行为 的 
遗传 算法 描述 ,但 它们 解释 实际 有 限 种 群 遗 传 算法 行为 的 能 力 相 对 差 一 些 。 

3) 遗传 算法 的 收敛 理论 

法 国学 者 R. Cerf 在 其 一 系列 工作 中 ,利用 Azencott、Catoni、Trouve 等 人 关于 模拟 退 
火 和 广义 模拟 退火 的 一 系列 漂亮 工作 ,将 遗传 算法 看 成 一 种 特殊 形式 的 广义 模拟 退火 模 
型 ,利用 动力 系统 的 随机 扰动 理论 ,对 遗传 算法 的 极限 行为 及 收敛 速度 进行 了 研究 。 尽 管 
在 Cerf 模型 中 所 研究 的 马 氏 链 序列 仍然 是 种 群 序列 ,但 由 于 研究 方法 与 种 群 马 氏 链 模型 
的 差异 ,我 们 将 它 称 为 Cerf 扰动 马 氏 链 模 型 。 
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上 述 三 种 模型 各 有 优 缺 点 。 种 群 马 氏 链 模型 最 直观 ,因而 对 遗传 算法 行为 的 解释 能 
力 最 强 。 但 遗憾 的 是 ,由 于 对 该 马 氏 链 转移 概率 没有 一 个 深刻 而 细致 的 描述 , 目前 所 得 结 
果 仅 仅 用 到 了 变异 机 制 所 导致 的 遍历 性 ,因而 只 是 形式 上 的 ;并 且 所 得 到 的 算法 收敛 或 不 
收敛 结果 的 证 明 方法 与 纯 随机 抽样 算法 相应 结果 的 证 明 方 法 ,在 基本 思想 上 这 两 种 方法 
无 本 质 区 别 。Vose 模型 在 理论 上 得 出 了 一 些 形式 复杂 和 漂亮 的 结果 ,但 这 些 结 果 对 遗传 
算法 行为 的 解释 性 不 强 。Vose 模型 的 深入 研究 也 许可 以 使 遗传 算法 研究 中 用 上 已 在 群 
体 遗 传 学 上 成 功 运 用 的 随机 分 析 方 法 。Cerf 的 扰动 马 氏 链 模型 得 到 了 目前 最 完整 的 收敛 
性 结果 ,而 且 有 希望 进一步 深入 。 不 足 的 是 , 它 仍 要 假设 种 群 规模 趋 于 无 穷 大 。 

4. 生物 进化 思想 的 深层 利用 

虽然 遗传 算法 已 经 在 许多 领域 中 获得 了 成 功 的 应 用 ,但 目前 仍 存在 几 个 悬而未决 的 
问题 。 究 其 原因 ,主要 是 因为 当前 的 遗传 算法 只 是 简单 地 模拟 了 生物 的 进化 ,对 生物 进化 
机 理 做 了 很 大 简化 ,而 生物 的 进化 是 一 个 非常 复杂 的 过 程 。 

分 子 生物 学 告诉 我 们 DNA 的 结构 为 由 四 种 碱 基 配 成 的 扭转 阶梯 螺旋 ,如 图 5-14 所 
示 。 生 物 技术 的 发 展 已 经 使 保留 在 化 石 中 的 DNA 来 复活 生命 和 历史 ,利用 DNA 分 析 技 
术 进 行刑 事 案件 分 析 成 为 可 能 。 而 遗传 算法 的 染色 体 的 表示 则 简单 得 多 ,而 且 用 来 模拟 
生物 有 性 繁殖 的 杂交 算 子 也 多 是 线性 串 的 部 分 交换 ,如 图 5-15 所 示 。 所 以 ,要 提高 遗传 
算法 的 性 能 ,必须 深入 地 研究 生物 的 结构 与 进化 规律 ,如 近年 来 发 展 起 来 的 免疫 系统 模型 
和 协同 进化 模型 等 。 
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图 5-14 DNA 的 双 螺 旋 结构 示意 图 
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(a) 杂交 前 (b) 杂交 后 
图 5-15 遗传 算法 的 杂交 算 子 简 图 


除了 常用 的 二 进 制 单 点 杂交 与 位 变异 算 子 ,一些 借鉴 生物 进化 的 新 型 遗传 算 子 也 已 
经 应 用 在 遗传 算法 中 ,如 倒 位 (inversion )、 显 性 (dominance)、 二 倍 体 (diploidy)、 缺 失 
(deletion) 等 。 

5. 遗传 算法 的 特点 与 应 用 

遗传 算法 具有 内 在 并 行 性 (inherent parallelism) 和 内 含 并 行 性 Cimplicit parallelismy) 。 
前 者 是 指 遗 传 算法 的 适应 度 评价 是 并 行 的 ,可 以 在 并 行 机 上 进行 ,同时 可 以 采用 多 群体 进 
化 ,群体 之 间 可 以 进行 通信 。 后 者 是 指 遗传 算法 虽然 每 代 仅 处 理 N 个 个 体 (N 为 群体 规 
模 ) ,但 却 有 效 处 理 了 OCN' ) 个 模式 。 关 于 遗传 算法 的 并 行 处 理 研究 多 集中 于 前 者 。 

遗传 算法 的 应 用 是 一 个 发 展 最 为 迅速 的 研究 方向 。 目 前 已 经 在 模式 识别 .图 像 处 理 、 
人 工 智能 、 经 济 管理 机械 工 程 . 电 气 工程 .通信 、 分 子 生 物 学 等 举 不 胜 举 的 领域 中 获得 了 
较 成 功 的 应 用 。 但 如 何 将 各 专业 的 知识 融入 到 遗传 算法 的 算 子 中 , 目前 仍 在 继续 研究 。 

概括 起 来 说 ,遗传 算法 具有 使 用 简单 ,应 用 范围 广 、 鲁 棒 性 强 、 易 于 并 行 化 等 特点 。 

(1) 遗传 算法 的 处 理 对 象 不 是 参数 本 身 ,而 是 对 参数 集 进 行 编码 的 个 体 。 这 样 的 编 
码 操作 ,使 得 GA 可 以 直接 对 结构 对 象 进行 操作 。 所 谓 “ 结 构 对 象 ”, 这 里 泛 指 集合 、 序 列 、 
和 矩阵、 树 、 图 、 链 和 表 等 各 种 一 维 、 二 维 或 三 维 结构 形式 的 对 象 。 

GA 的 这 一 特点 使 其 具有 广泛 的 应 用 领域 ,并 在 组 合 优 化 问题 求解 、 自 适应 控制 、 规 
划 设 计 、 机 器 学 习 和 人 工 生命 等 众多 领域 的 应 用 实践 中 ,展现 出 了 其 独特 的 算法 魅力 与 
特色 。 

(2) 许多 传统 的 搜索 算法 都 是 单 点 搜索 算法 , 即 通过 一 些 变动 规则 ,问题 的 解 从 搜索 
空间 中 的 当前 解 ( 点 ) 移 到 另 一 解 ( 点 )。 这 种 点 对 点 的 搜索 算法 ,对 于 多 峰 分 布 的 搜索 空 
间 常 常会 陷于 局 部 的 某 个 单 峰 的 优 解 。 与 传统 搜索 算法 相反 .GA 是 采用 同时 处 理 群 体 
中 多 个 个 体 的 方法 , 即 同时 对 搜索 空间 中 的 多 个 解 进行 评估 。 更 形象 地 说 ,GA 是 并 行 地 
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疏 多 个 峰 。 这 一 特点 使 GA 具有 较 好 的 全 局 搜索 性 能 ,可 以 减少 陷于 局 部 优 解 的 风险 。 
同时 ,这 也 使 GA 本 身 易于 并 行 化 。 

(3) 在 标准 的 遗传 算法 中 ,基本 上 不 用 搜索 空间 的 知识 或 其 他 辅助 信息 ,而 仅 使 用 适 
应 度 函 数值 来 评估 个 体 ,并 在 此 基础 上 进行 遗传 操作 。 而 且 , 对 适应 度 函 数 的 唯一 要 求 
是 : 对 于 输入 ,可 以 计算 出 能 进行 比较 的 正 值 输出 , 即 函 数值 过 0。GA 的 这 一 特点 使 它 的 
应 用 范围 大 大 扩展 。 

(4) GA 不 是 采用 确定 性 规则 ,而 是 采用 概率 的 变迁 规则 来 指导 它 的 搜索 方向 ,引导 
其 搜索 过 程 朝 着 搜索 空间 的 更 优化 的 解 进行 区 域 移动 。 因 此 ,虽然 看 起 来 它 是 一 种 盲目 
搜索 方法 ,但 实际 上 却 有 明确 的 搜索 方向 。 

下 面 使 用 一 个 实例 “基于 遗传 算法 思想 的 网 络 信息 定 题 搜 索 应 用 ”来 说 明 GA 的 
应 用 。 
在 WWW 网 络 中 ,大 量 的 网 页 资源 通过 链接 形成 巨大 的 有 向 图 G 二 (N,E) 结 构 , 其 
中 ,NN 表示 网 页 节点 ,E 表示 节点 之 间 的 链接 弧 , 并 带 有 权 值 (以 反映 网 页 之 间 的 某 种 关联 
程度 ) 。 在 这 样 的 拓扑 结构 中 ,进行 定 题 信息 搜索 的 目的 是 : 在 尽 可 能 短 的 时 间 内 ,搜索 
到 尽 可 能 多 的 主题 相关 信息 ,同时 最 大 限度 地 排除 不 相关 信息 。 在 搜索 过 程 中 ,路 径 选 择 
最 为 关键 ,并 直接 影响 到 搜索 的 质量 和 速度 。 

基于 前 面 对 遗 传 算法 的 理解 ,我 们 可 以 在 定 题 信息 搜索 过 程 中 引入 遗传 算法 ,并 借助 
选择 、 交 又、 变异 等 主要 遗传 算 子 进行 搜索 路 径 选 择 。 算 法 的 基本 步骤 设计 如 下 。 

第 一 ,初始 化 。 定 题 信息 搜索 的 初始 条 件 是 给 定 待 搜索 主题 对 应 的 检索 提问 式 。 将 
检索 提问 式 提 交 给 某 一 通用 搜索 引擎 (例如 Vista .Google 等 ) ,搜索 结果 构成 定 题 搜索 的 
初始 URL 集合 。 

为 提高 定 题 搜 索 的 效率 ,可 对 搜索 引擎 返回 的 结果 进行 筛选 或 预 处 理 , 选 择 一 定数 目 
的 权威 性 较 强 网 页 的 URL 组 成 遗传 算法 需要 的 初始 群体 p(0) ,同时 ,准备 好 用 于 变异 操 
作 的 网 页 集合 Hub。 这 里 ,Hub 页 面 一 般 是 链接 了 多 个 相关 主题 页 面 \. 具 有 目录 特性 的 
页 面 ,它们 将 对 扩大 定 题 搜索 范围 ,实现 全 局 寻 优 搜索 具有 重要 作用 。 

第 二 ,交叉 操作 。 利 用 搜索 模块 下 载 当 前 群体 p(7) 中 URL 所 对 应 的 网 页 ,抽取 网 页 
包含 的 超 链 接 , 从 未 被 搜索 过 的 超 链 中 挑选 出 被 多 个 (2) 个 体 页 面 指向 的 超 链 ,组 成 集 
前 

第 三 ,变异 操作 。 按 照 预 定 的 变异 概率 从 Hub 页 面 集合 中 提取 一 定数 量 的 未 被 搜索 
的 URL, 同 时 根据 交叉 概率 从 集合 C 中 提取 相应 数目 的 URL, 共 同 组 成 新 的 待 搜索 
URL 集合 Q。 
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第 四 ,选择 操作 。 提 取 和 集合 Q 中 URL 对 应 页 面包 含 的 所 有 超 链 ,以 及 超 链 对 应 的 
metadata, 计 算 各 超 链 URL 的 适应 度 值 , 经 过 筛选 ,组 成 下 一 代 和 群体 p(t 十 1)。 这 里 ,适应 
度 函 数 Fit 可 以 选择 为 : 

Fit(link;) = sim(g, Metadate( link;)) (5-70) 

其 中 ,Metadata(link) 表 示 超 链 link 的 Metadata 信息 ,g 为 定 题 搜 索 的 检索 提问 式 ， 
sim(Cdl ,dz) 表 示 di 和 dz 间 的 相似 度 。 

第 五 ,算法 终止 判断 。 算 法 终止 参数 可 以 有 多 种 选择 ,例如 进化 代数 :是否 超过 最 大 
进化 代数 人 工 , 已 搜索 网 页 数量 是 否 超 过 用 户 设 定 的 阔 值 ,已 搜索 时 间 是 否 超 过 指定 的 时 间 
值 等 。 如 果 满 足 终止 条 件 , 则 算法 结束 ;和 否则, 跳 转 到 交叉 操作 步骤 ,继续 进行 进化 过 程 。 

上 述 算法 设计 思想 充分 体现 了 遗传 算法 自 适应 全 局 优化 概率 搜索 的 特点 ,初步 的 实 
验 结果 数据 显示 ,这 种 定 题 搜索 方法 具有 搜索 范围 广 、 查 全 率 高 等 优点 。 


5.6.2 粗糙 集 理论 

粗糙 集 (rough set,RS) 理 论 是 20 世纪 80 年 代 初 期 由 波兰 数学 家 波 拉克 (Z. Pawlak) 
首先 提出 的 一 种 数据 分 析 理 论 ,80 年 代 末 期 开始 引起 学 界 重视 ,并 在 数据 决策 与 分 析 、 模 
式 识别 .机 器 学 习 与 知识 发 现 . 数 据 挖掘 等 领域 得 到 成 功 应 用 。1995 年 ACM 
Communication 将 粗糙 集 列 为 新 出 现 的 计算 机 科学 研究 课题 ; 目前 ,该 理论 已 成 为 信息 科 
学 最 为 活跃 的 一 个 研究 领域 。 

1. 粗糙 集 理 论 发 展 概述 

现实 生活 中 有 许多 含糊 现象 并 不 能 简单 地 用 真 , 假 值 来 表示 ,如何 表示 和 人 处理 这 些 现 
象 就 成 为 了 一 个 研究 领域 一 一 粗 烽 集 理论 。 通 过 采取 “有 限 的 一 组 ”和 “等 价 关 系 ” 的 系列 
理论 ,并 新 引入 “分 类 ”和 “近似 ”的 概念 ,Z. Pawlak 还 扩展 了 以 往 的 理论 ,使 模糊 的 和 不 完 
整 的 数据 还 可 以 处 理 。 早 在 1904 年 谓词 逻辑 的 创始 人 G. Frege 就 提出 了 含糊 一 词 , 他 把 
它 归结 到 边界 线 上 ,也 就 是 说 在 全 域 上 存在 一 些 个 体 既 不 能 在 其 某 个 子 集 上 分 类 ,也 不 能 
在 该 子 集 的 补 集 上 分 类 。1965 年 ,Zadeh 提出 了 模糊 集 ,不 少 理论 计算 机 科学 家 和 逻辑 学 
家 试图 通过 这 一 理论 解决 G. Frege 的 含糊 概念 ,但 模糊 理论 采用 隶属 度 函 数 来 处 理 模糊 
性 ,而 基本 的 隶属 度 是 赁 经 验 或 者 由 领域 专家 给 出 的 ,所 以 具有 相当 的 主观 性 。20 世纪 
80 年 代 初 ,波兰 的 Pawlak 针对 G. Frege 的 边界 线 区 域 思想 提出 了 粗糙 集 (rough set) ,他 
把 那些 无 法 确认 的 个 体 都 归属 于 边界 线 区 域 ,而 这 种 边界 线 区 域 被 定义 为 上 近似 集 和 下 
近似 集 的 差 集 。 由 于 它 有 确定 的 数学 公式 描述 ,完全 由 数据 决定 ,所 以 更 客观 。 

1982 年 ,Z. Pawlak 发 表 了 经 典 论 文 Rough Sets(Pawlak,1982) ,标志 着 粗糙 集 理 论 
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的 诞生 。 由 于 最 初 的 研究 大 多 数 都 是 以 波兰 文字 发 表 的 ,因此 该 理论 的 研究 在 当时 并 未 
引起 国际 数学 界 和 计算 机 领域 的 重视 ,研究 地 域 仅仅 局 限于 东欧 国家 。 到 了 20 世纪 80 
年 代 末 ,粗糙 集 理 论 引 起 了 许多 数学 家 、 逻 辑 学 家 和 计算 机 研究 人 员 的 兴趣 ,他 们 在 粗糙 
集 理 论 和 应 用 方面 做 了 大 量 的 研究 工作 。1991 年 Z. Pawlak 的 专著 Rough Set: 
Theoretical Aspects of Reasoning about Data 和 1992 年 R. Slowinski 主编 的 关于 粗糙 集 
应 用 及 其 与 相关 方法 比较 研究 的 论文 集 的 出 版 ,对 这 一 段 时 间 理 论 和 实践 工作 的 成 果 做 
了 较 好 的 总 结 , 推 动 了 国际 上 对 粗糙 集 理 论 与 应 用 的 深入 研究 。 目 前 ,粗糙 集 已 经 成 为 人 
工 智能 领域 中 的 一 个 学 术 热点 ,在 数据 挖掘 .知识 获取 ,决策 分 析 、. 过 程控 制 等 诸多 领域 得 
到 了 广泛 的 应 用 。 我 国 于 2001 年 5 月 在 重庆 召开 了 “第 一 届 中 国 Rough 集 与 软 计算 学 
术 研 讨 会 ”, 邀 请 了 粗糙 集 理论 的 创始 人 Z. Pawlak 教授 做 大 会 报告 。 

2. 粗糙 集 理论 基础 

粗糙 集 理论 是 一 种 处 理 模糊 和 不 确定 信息 的 新 的 数学 工具 ,其 基本 思想 (Pawlak， 
1995) 是 在 保持 分 类 能 力 不 变 的 前 提 下 ,通过 知识 的 约 简 导 出 概念 的 分 类 规则 。 粗 糙 集 理 
论 最 大 的 优点 在 于 无 顷 人 为 地 额外 假设 条 件 ,而 是 完全 由 已 知 数据 来 如 实地 回答 问题 ,从 
而 开辟 了 一 条 与 传统 智能 信息 处 理 方 法 所 截然 不 同 的 新 途径 。RS 理论 的 基本 概念 主要 
有 以 下 几 个 。 

(1) 知识 与 知识 库 。 一 般 来 说 ,人 工 智能 及 其 他 复杂 信息 处 理 问 题 均 以 分 类 作为 它 
们 的 基本 机 制 之 一 。RS 理论 建立 在 分 类 机 制 的 基础 上 ,把 分 类 理解 为 等 价 关系 ,而 这 些 
等 价 关系 将 对 特定 问题 空间 进行 划分 。 因 此 ,在 RS 中 ,知识 可 以 定义 为 : 给 定论 域 U 与 
等 价 关 系 集合 R,R 下 对 数据 集合 U 的 划分 , 称 为 知识 , 记 作 U/R。 

可 以 用 一 个 例子 来 说 明 有 关 的 基本 概念 。 

给 定 一 种 玩具 积木 的 集合 U={zi,zs,za,zivzs,zeyzyvzs}, 并 假设 这 些 积 木 有 不 同 
的 颜色 ( 红 、 黄 、 蓝 ) .形状 (方圆 三角) 体积 (大 .小 )。 因 此 ,这 些 积 木 可 以 用 颜色 .形状 、 
体积 这 些 属性 知识 来 描述 。 表 5-1 说 明了 这 些 积木 的 不 同属 性 。 


表 5-1 积木 的 总 体 信 息 集合 二 维 表 
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在 表 5-1 中 ,我 们 定义 了 三 个 等 价 关 系 ( 即 属性 ): 颜色 Ri 形状 R 和 体积 Rs ,通过 
这 些 等 价 关系 ,可 以 得 到 对 论 域 U 形成 的 三 个 不 同 的 划分 (等 价 类 ): 
U/R1 = {{zaiyzsyzyz}, {x2 ,XT4), {xs ,xe}} 


U/R: = {{zx1,7T5}, {zx2,T6), (zs zy 7 Zs 


U/Rs = {{zx2 ,X17,T8}, {XT1,T3,T4, Ts ,XT6)}} 
这 些 不 同 的 划分 构成 了 一 个 知识 库 , 表 示 为 
K = (U,R) = (U, {Ri,R;,R;}) (5-71) 


进一步 地 ,在 知识 库 K 中 ,U/Ri1.U/Rz、U/Rs 中 包含 的 元 素 分 别称 为 关于 U 的 R1、 
Rs .Rs 的 初等 概念 或 初等 范畴 。 初 等 范畴 的 交集 构成 基本 范畴 ,因此 ,{ziyzs,zz} 门 {zs， 
Ziyz7yzs) 一 {2zayz7} 表 示人 Ri,Rz)} 的 基本 范畴 是 红色 三 角形 ;而 {ziyzayzy) 门 (zayziyzy， 
xs} | {xz ,X71,X8) 二 {X17) 表 示 {R1,R; ,Rs} 的 基本 范畴 是 红色 大 三 角形 等 。 

当然 有 些 范畴 在 这 个 知识 库 中 是 无 法 得 到 的 ,例如 ， 

{x1 ,x5} Nn {zz,T4) 一 2) 
{wr} () {are} = (5-72) 
也 就 是 说 ,在 我 们 的 这 个 知识 库 中 不 存在 蓝 色 圆 形 和 红色 方形 的 范畴 。 

(2) 上 .下 近似 与 粗糙 集 。 令 X 为 U 的 一 个 子 集 ,R 为 U 上 的 一 个 等 价 关 系 , 当 X 能 
表达 成 某 些 R 基本 范畴 的 并 时 , 称 X 是 R 可 定义 的 ,否则 称 X 是 R 不 可 定义 的 。 

R 可 定义 集 是 论 域 的 子 集 , 它 可 在 知识 库 K 中 精确 地 定义 ,而 尺 不 可 定义 集 不 能 在 
这 个 知识 库 中 定义 。R 可 定义 集 也 称 为 “R 精确 集 ”, 而 R 不 可 定义 集 也 称 为 *R 非 精 确定 
义 集 ”或 “R 粗糙 集 ”(rough set) 。 

对 于 粗糙 集合 可 以 近似 地 定义 ,我 们 使 用 两 个 精确 集 , 即 粗糙 集 的 上 近似 (upper 
approximat-ion) 和 下 近似 (lower approximation) 来 描述 。 给 定 知识 库 KK 二 (U,R), 对 于 
LU 的 每 一 个 子 集 X 和 一 个 等 价 关 系 尺 ,定义 两 个 子 集 : 

RR 一 lowerX= 二 UU {Y €E U/R |Y 为 X 的 子 集 } 
R—upperX =U {YEU/RIYNX= 8%)} 
分 别称 它们 为 X 的 R 下 近似 集 和 RR 上 近似 集 。 
令 card 为 一 求 集合 元 素 个 数 的 函数 , 则 粗糙 度 可 定义 为 
a(X) = card(R— lowerX)/card(R— upperX) (5-74) 
即将 X 对 关系 尺 的 粗糙 程度 使 用 下 近似 集合 元 素 个 数 与 上 近似 集合 元 素 个 数 的 比值 来 
测量 。 


(3) 知识 约 简 。 知 识 约 简 是 粗糙 集 理论 的 核心 内 容 之 一 。 通 常 ,知识 库 中 的 知识 (或 


(5-73) 
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属性 ) 并 不 是 同等 重要 的 ,甚至 其 中 某 些 知识 是 宛 余 的 。 所 谓 知 识 约 简 (reduct) ,就 是 在 
保持 知识 库 分 类 能 力 不 变 的 条 件 下 ,删除 其 中 不 相关 或 不 重要 的 知识 。 

除 约 简 外 ,知识 约 简 中 还 有 一 个 基本 概念 一 一 核 (core) , 指 约 简 时 不 能 消去 的 知识 特 
征集 合 , 核 可 以 作为 所 有 约 简 的 计算 基础 。 

(4) 知识 的 依赖 性 。 知 识 库 中 的 知识 之 间 可 以 是 独立 的 或 者 是 依赖 的 ,而 依赖 程度 
又 可 能 是 不 同 的 。 知 识 Q@ 是 &(0<k<1) 依 赖 于 知识 P 的 , 记 作 P= 二 kQ, 其 中 : 当 A=1 
时 , 称 知 识 Q 完全 依赖 于 知识 P; 当 0 二 k 二 1 时 , 称 Q 粗 糙 ( 部 分 ) 依 赖 于 P; 当 k=0 时 , 称 
Q 完全 独立 于 也。 

(5) 知识 表达 系统 与 决策 表 

知识 表达 系统 在 智能 数据 处 理 中 占有 十 分 重要 的 地 位 。 形 式 上 ,一 个 知识 表达 系统 
是 一 个 四 元 组 : 

Ss As 

其 中 ,U 为 对 象 的 非 空 有 限 集合 , 称 为 论 域 ;A 为 属性 的 非 空 有 限 集合 ;V== UV (a€ 
A),V。 真是 属性 a 的 值 ;/: UXA~>V 是 信息 函数 , 它 为 每 个 对 象 的 每 个 属性 赋予 一 个 信 
息 值 。 

知识 表达 系统 的 数据 通常 以 关系 表 的 形式 表示 。 在 各 种 关系 表 中 ,决策 表 是 一 类 特 
殊 而 重要 的 知识 表达 系统 。 对 于 决策 表 而 言 ,4A=CUD,CmD= 纪 ,C 称 为 条 件 属性 集 ， 
而 DD 称 为 决策 属性 集 。 

在 决策 表 中 ,最 重要 的 是 决策 规则 的 产生 。 在 产生 决策 规则 之 前 ,可 首先 对 决策 表 中 
的 属性 进行 约 简 。 对 决策 表 的 处 理 逻 辑 过 程 一 般 按 以 下 步骤 进行 。 

Q@ 去 除 重复 的 实例 元 素 。 

@ 去 除 多 余 的 属性 。 

@ 对 每 个 元 素 删除 多 余 的 属性 值 。 

@ 求 出 最 小 约 简 。 

@ 根据 最 小 约 简 , 求 出 逻辑 规则 。 

@ 区 分 矩阵 与 区 分 函数 。 

对 于 知识 表达 系统 S=(U,A,V, 门 来 说 ,其 区 分 矩阵 是 一 个 zxX7z 矩阵 ,其 任 一 元 
素 为 


a(T’y) = {a€E A|flra) A flya)} (5-75) 
因此 ,a(z,y) 是 区 分 对 象 x 和 y 的 所 有 属性 的 集合 。 
利用 区 分 矩阵 来 表达 知识 有 很 多 优点 ,特别 是 它 能 容易 地 计算 约 简 和 核 。 
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3. 粗糙 集 理论 的 特点 

作为 一 种 研究 不 精确 .不 完整 信息 问题 的 数学 工具 ,粗糙 集 理 论 有 很 多 自己 的 特点 。 
粗糙 集 理论 将 知识 定义 为 不 可 分 辨 关系 的 族 集 ,因此 知识 有 了 清晰 的 数学 定义 ;可 以 很 方 
便 地 用 数学 方法 来 分 析 处 理 。 粗 糙 集 理论 认为 知识 的 粒度 性 是 造成 使 用 已 有 知识 不 能 精 
确 地 表示 某 些 概念 的 原因 。 通 过 引入 不 可 分 辨 关系 作为 粗糙 集 理 论 的 基础 ,并 在 此 基础 
上 定义 的 上 下 近似 等 概念 ,粗糙 集 理论 能 够 有 效 地 荧 近 这 些 概 念 。 不 同 于 概率 论 ,模糊 集 
等 其 他 传统 数学 分 析 工 具 , 粗 糙 集 理论 在 定量 分 析 和 处 理 具有 不 确定 性 和 不 完备 性 的 数 
据 时 ,具有 非常 明显 的 优势 和 特点 , 它 通过 近似 集合 概念 来 描述 和 表达 系统 的 含糊 性 和 不 
确定 性 ,其 表达 方式 更 加 客观 ,处 理 不 确定 信息 的 常用 数据 分 析 方 法 如 概率 论 和 模糊 集 都 
需要 先 验 知识 : 概率 论 依赖 于 概率 分 布 , 模 糊 集 则 依赖 于 隶属 函数 ,这 些 信 息 都 不 容易 得 
到 ,而 粗糙 集 理论 对 数据 的 分 析 不 需要 附加 任何 外 界 信息 或 者 先 验 知识 ,所 有 的 分 析 工 作 
都 能 够 完全 基于 数据 对 象 本 身 完 成 ,从 而 避免 了 主观 因素 的 影响 。 正 是 粗糙 集 理论 的 这 
一 独特 优点 ,使 其 在 数据 挖掘 领域 迅速 地 脱颖而出 。 

但 是 作为 一 种 新 事物 ,粗糙 集 理 论 在 实用 中 也 遇 到 了 许多 困难 ,目前 的 有 效 途 径 有 两 
条 : 一 是 粗糙 集 理论 的 进一步 拓展 ,其 次 是 粗糙 集 理论 与 其 他 方法 的 结合 。 目 前 基于 粗 
糙 集 理论 的 数据 挖掘 主要 有 以 下 几 个 方面 值得 进一步 深化 。 

(1) 粗糙 集 理论 和 其 他 软 计 算 方 法 进一步 结合 。 

(2) 粗糙 集 的 基本 理论 中 ,决策 信息 系统 的 约 简 是 NP-Hard 问题 ,目前 还 缺乏 普遍 
适用 的 算法 ,这 是 制约 粗糙 集 理 论 实用 化 的 重要 方面 。 

(3) 粗糙 集 理 论 不 能 直接 对 连续 数据 进行 处 理 , 必须 事先 对 连续 数据 进行 离散 化 。 
为 了 保持 原 有 属性 对 决策 信息 系统 的 分 辨 能 力 ,需要 采用 适 于 粗糙 集 的 离散 化 算法 对 连 
续 属性 进行 离散 化 。 


5.6.3 浏览 检索 模型 

一 般 情况 下 ,检索 方式 需要 通过 特征 提取 和 索引 机 制 来 实现 ,在 用 户 的 信息 需求 比较 
明确 时 ,可 以 直接 从 检索 系统 或 检索 工具 中 进行 检索 和 浏览 ,检索 和 浏览 是 用 户 查 找 和 发 
现 信息 资源 的 两 种 基本 手段 。 浏 览 主要 依靠 系统 中 预定 义 的 某 种 信息 组 织 和 导航 机 制 ， 
通过 用 户 的 访问 和 探寻 来 发 现 一 些 相关 的 或 未 曾 预料 的 有 用 信息 。 如 果 用 户 的 兴趣 不 是 
提交 一 个 对 系统 的 查询 ,而 是 花 时 间 浏 览 资 源 空间 ,以 寻找 所 关心 的 文档 ,这 种 情况 我 们 
称 为 进行 文档 空间 的 浏览 而 不 是 搜索 。 因 此 ,可 以 说 ,检索 是 “系统 主导 ?方式 ,而 浏览 则 
是 “用 户主 导 ” 方 式 。 常 见 的 浏览 模型 有 平坦 模型 结构 导向 模型 以 及 超 文本 模型 。 
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在 早期 的 计算 机 信息 检索 系统 中 ,主要 关注 检索 机 制 的 建立 与 优化 ,基本 上 把 用 户 从 
匹配 过 程 中 排除 ,检索 处 理 完 全 由 检索 软件 来 承担 .从 而 使 得 检索 速度 得 到 了 极 大 的 提 
高 。 但 随 着 超 文本 技术 的 广泛 使 用 ,信息 的 浏览 式 查找 重新 引起 了 研究 人 员 的 注意 。 引 
入 浏览 机 制 , 让 用 户 回 归并 参与 到 信息 的 判断 与 选择 过 程 中 ,在 某 些 情形 下 (例如 用 户 的 
信息 需求 不 清楚 或 不 便于 表达 时 ) ,可 以 使 信息 查询 任务 更 加 有 效 地 完成 。 鉴 于 检索 方式 
和 浏览 方式 各 有 千秋 ,如 何在 系统 中 合理 设置 .平衡 这 两 种 信息 查找 机 制 , 实 现 二 者 的 有 
机 结合 ,并 在 需要 的 时 候 进行 自由 切换 ,成 为 一 个 非常 值得 研究 的 信息 查询 问题 。 

1. 平坦 浏览 模型 

该 模型 的 思想 是 假设 用 户 浏 览 一 个 具有 平坦 组 织 的 文档 空间 。 例 如 ,文档 集合 可 以 
被 描述 为 平面 (二 维 ) 上 的 点 或 是 链表 (一 维 ) 中 的 元 素 , 用 户 在 这 些 二 维 或 一 维 的 结构 中 ， 
通过 鼠标 、 方 向 键 或 深 动 条 等 操作 来 对 相关 信息 进行 访问 、 阅 读 、 浏 览 ,以 寻找 有 关 信 息 。 
例如 相关 反馈 过 程 中 ,用 户 通过 在 邻近 文档 中 的 浏览 ,查找 出 相关 的 资料 或 一 些 感 兴趣 的 
关键 词 。 

同样 ,用 户 也 可 以 以 平面 方式 浏览 单一 的 信息 文档 。 例 如 ,用 浏览 导航 条 浏览 一 个 
Web 页 面 。 

目前 ,这 种 浏览 模式 在 信息 检索 系统 的 结果 处 理 界面 是 最 为 流行 的 ,但 检索 结果 的 平 
面 式 浏览 , 仅 适用 于 检索 结果 数量 较 少 的 情形 ,对 各 种 网 络 搜索 引擎 所 提供 的 庞大 检索 结 
果 集 合 ,这 样 的 浏览 方式 已 成 为 对 用 户 时 间 和 精力 的 一 个 巨大 浪费 。 平 面 式 浏览 实现 方 
法 简单 ,并 且 只 能 线性 地 按 顺 序 进行 或 随机 进行 ,效率 较 低 。 缺 乏 层 次 性 的 视图 ,容易 使 
用 户 的 信息 浏览 与 查询 行为 迷航 。 

2. 结构 导向 浏览 模型 

为 了 对 浏览 的 行为 提供 更 好 的 支持 ,文档 应 该 被 组 织 成 为 如 目录 那样 的 结构 。 目 录 
是 类 的 层次 结构 ,对 文档 按照 主题 来 分 类 和 组 织 。 层 次 结构 式 导航 是 指 把 众多 文档 或 信 
息 资 源 组 织 到 一 个 树 状 的 类 目 等 级 体系 中 ,用 户 在 查找 信息 时 可 以 在 这 样 的 目录 结构 引 
导 下 ,从 上 到 下 ,从 宽泛 到 具体 ,逐步 接近 或 找到 所 需要 的 有 用 信息 。 有 时 ,对 单一 文档 ， 
也 可 以 采用 这 样 的 组 织 方式 。 例 如 ,对 于 一 部 电子 图 书 , 就 可 以 根据 其 目录 结构 ,按照 章 、 
节 、 小 节 等 层次 进行 有 关 的 浏览 与 查询 导航 活动 。 

层次 结构 式 导航 方法 历史 悠久 ,目前 ,在 很 多 检索 系统 (例如 搜索 引擎 ) 中 ,都 设置 了 
这 样 的 检索 初始 界面 。 用 户 在 查询 操作 伊始 , 即 可 以 通过 系统 提供 的 信息 资源 等 级 分 类 
目录 ,选择 一 个 适宜 的 查询 起 点 和 浏览 路 径 。 为 便于 浏览 ,提高 效率 ,通常 情况 下 ,层次 式 
浏览 还 提供 了 一 个 用 户 访 问 信息 的 历史 记录 地 图 ,以 辅助 用 户 确认 浏览 过 的 内 容 和 次 序 。 
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层次 结构 式 导 航 由 于 对 信息 集合 进行 了 合理 的 分 类 ,浏览 层次 与 路 径 清晰 ,因而 效率 
较 高 ,是 一 种 有 效 的 信息 浏览 与 查询 机 制 。 但 是 ,针对 大 规模 资源 集合 ,如 何以 自动 方式 
构建 其 层次 组 织 结 构 , 目 前 还 是 一 个 待 解决 的 课题 。 

3. 超 文 本 浏览 模型 

网 状 结构 式 浏览 主要 指 基 于 超 文本 网 页 (HTML 或 XML) 的 交互 性 浏览 模式 。 一 般 
地 , 超 文本 被 看 做 是 一 种 由 节点 相互 链接 而 形成 的 有 向 图 结构 。 这 里 ,节点 (nodes) 表 示 
信息 内 容 或 知识 单元 ,节点 之 间 具 有 某 种 语义 关系 ,用 “ 链 ”(1links) 来 表达 ,整个 信息 集合 
由 于 包含 了 众多 信息 单元 而 最 终 通过 “ 链 ” 形 成 了 一 个 网 络 (network) 信 息 架 构 。 

超 文 本 是 一 种 具有 巨大 利用 价值 的 信息 组 织 与 管理 技术 ,尤其 对 于 多 媒体 信息 来 说 ， 
更 是 如 此 。 在 这 样 的 信息 组 织 网 络 中 ,用 户 通过 沿 着 不 同 的 “链接 路 径 , 即 可 探访 、 穿 行 
于 信息 或 知识 的 网 络 空间 中 ,或 浏览 ,或 发 现 ,或 思考 ,在 灵活 地 、 非 顺序 地 浏览 各 种 相关 
信息 的 同时 ,还 实现 了 与 人 类 自身 思维 活动 的 交互 作用 和 有 机 融合 过 程 。 

超 文本 式 的 导航 与 浏览 ,对 于 小 型 信息 资源 集合 来 说 ,无 疑 是 一 种 理想 的 组 织 方 式 ， 
但 当 集合 规模 较 大 时 , 超 文本 结构 会 变 得 非常 复杂 ,而 基于 复杂 的 超 文 本 结构 ,用 户 浏览 
时 往往 会 出 现 严 重 的 “迷路 ”(disorientation) 现 象 。 因 此 ,对 于 超 文 本 浏览 方式 , 除 “ 热 键 ” 
链接 技术 外 ,一 个 关键 问题 是 如 何 增强 其 导航 与 定位 能 力 。 目 前 ,对 导航 问题 提出 的 解决 
方案 已 有 很 多 ,例如 宏观 结构 导航 法 、 鱼 眼 视 图 法 、 浏 览 路 标 法 、 附 加 检索 机 制 的 方法 等 。 


本 章 小 结 


信息 检索 技术 的 实现 必须 依靠 强 有 力 的 计算 机 应 用 程序 的 自动 执行 或 智能 性 信息 处 
理 作为 支撑 ,而 强 有 力 的 计算 机 应 用 程序 必须 依据 数学 原理 及 其 模型 方法 的 建立 为 前 提 。 
在 信息 检索 技术 中 引入 数学 原理 及 其 模型 方法 ,将 检索 过 程 中 的 信息 及 其 处 理 过 程 加 以 
解释 和 抽象 ,表达 成 某 种 数学 模型 ,再 经 演绎 与 推断 ,不 仅 能 使 信息 检索 技术 作为 研究 对 
象 的 概念 含义 精确 化 ,并 且 能 够 深刻 揭示 信息 检索 过 程 的 显 性 现象 与 潜在 的 隐 性 规律 。 

布尔 检索 模型 是 一 种 以 经 典 集合 论 和 布尔 代数 为 理论 基础 的 非常 简单 的 检索 模型 ， 
它 采 用 布尔 代数 的 方法 ,用 布尔 逻辑 表达 式 表示 用 户 提问 ,通过 对 文献 标识 和 提问 式 的 比 
较 来 检索 文献 信息 。 

模糊 检索 数学 原理 是 将 文献 看 成 是 与 提问 在 一 定 程 度 上 相关 ,对 于 每 一 个 标 引 词 ,都 
存在 一 个 模糊 的 文献 集合 与 之 相关 。 基 于 模糊 集合 模型 的 检索 结果 是 建立 在 文献 集 上 
的 , 且 其 隶属 度 就 是 文献 集 对 用 户 提 问 的 相关 程度 的 模糊 子 集 。 
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扩展 布尔 检索 模型 是 基于 布尔 逻辑 基本 假设 的 一 个 改进 模型 ,是 一 种 基于 布尔 逻辑 
框架 的 混合 布尔 与 向 量 特性 的 混合 检索 模型 。 扩 展 布尔 模型 是 常规 布尔 检索 精确 匹配 的 
严格 性 和 向 量 处 理 模 式 提问 的 无 结构 性 的 折 中 , 它 用 代数 距离 的 方式 来 解释 并 放松 了 布 
尔 操作 的 要 求 ,因而 有 效 融合 了 传统 的 布尔 ,向量 等 检索 模型 的 处 理 思想 。 

检索 代数 模型 是 以 线性 代数 .矩阵 计算 等 数学 理论 为 基础 ,利用 代数 论 基 本 知识 揭示 
信息 间 关 系 的 检索 模型 , 它 在 信息 检索 的 发 展 中 发 挥 着 重要 作用 。 检 索 代数 模型 主要 包 
括 向 量 空 间 模型 、 隐 含 语 义 索引 模型 .神经 网 络 模型 等 具体 类 型 。 

向 量 空 间 模 型 是 目前 信息 检索 最 常用 的 数学 模型 之 一 ,在 WWW 信息 方面 ,向 量 空 
间 模 型 比 布尔 模型 等 传统 模型 更 合适 。 向 量 空间 模型 (vector space model,VSM) 对 信息 
特征 表达 ,用 TFIDF(term-fre-quency inverse-document-{requency) 将 Web 页 面 文档 转化 
为 向 量 形式 ,再 通过 相关 度 的 计算 , 倒 排 文档 进行 索引 ,从 而 使 用 户 得 到 一 个 清晰 的 检索 
结果 。 

潜在 语义 索引 (latent semantic indexing,LSI) 模 型 可 以 看 成 是 一 种 扩展 的 向 量 空间 
模型 ,用 于 发 现 文本 信息 中 的 语义 关系 。 潜 在 语义 索引 模式 以 其 数学 理论 严谨 .处 理 文本 
信息 过 程 思路 清晰 得 到 了 信息 检索 技术 领域 的 重视 ,该 方法 在 语言 建 模 、 视 频 检 索 等 方面 
取得 了 较为 成 功 的 应 用 ,在 朴素 贝 叶 斯 分 类 模型 .KNN 模型 和 SVM 模型 中 都 被 证 明 是 
非常 有 效 的 方法 。 

神经 网 络 模型 主要 来 源 于 对 人 脑 神经 系统 结构 与 功能 的 模拟 ,神经 网 络 应 用 于 信息 
检索 ,只 是 该 模型 的 一 个 具体 应 用 领域 。 目 前 ,对 于 大 规模 的 文档 集合 ,运用 神经 网 络 模 
型 能 否 取 得 良好 的 检索 性 能 ,还 有 待 于 验证 及 相关 试验 数据 的 支持 。 

从 本 质 上 来 讲 , 信 息 检索 是 一 种 具有 不 确定 性 的 决策 判断 过 程 。 经 典 概率 模型 清楚 
地 认识 到 了 这 种 不 确定 性 (或 相关 性 ) ,利用 概率 论 原理 ,通过 赋予 索引 词 某 种 概率 值 来 表 
示 这 些 词 在 相关 文档 集合 和 非 相 关 文档 集合 中 的 出 现 概率 ,然后 计算 某 一 给 定 文档 与 某 
一 给 定 用 户 提问 相关 的 概率 并 做 出 检索 决策 。 

贝 叶 斯 (Bayesian) 网 络 是 人 工 智能 领域 处 理 不 确定 性 问题 的 主要 方法 。 贝 叶 斯 网 络 
检索 模型 是 概率 理论 的 一 个 主要 研究 分 支 。 通 常 ,Bayesian 网 络 可 以 看 做 是 一 个 有 向 非 
循环 图 (directed acyclic graph,DAG) 。 图 中 的 节点 一 般 用 来 表示 随机 变量 ,有 向 边 用 于 
描述 随机 变量 之 间 的 因果 关系 , 它 由 表示 原因 的 随机 变量 ( 父 节 点 ) 指 向 代表 结果 的 随机 
变量 ( 子 节点 ) ,而 因果 关系 影响 力 的 大 小 (或 权 值 ) 则 用 条 件 概率 来 表示 。 

进化 计算 与 遗传 算法 主要 用 来 解决 实际 检索 活动 中 的 复杂 优化 问题 ,例如 “基于 遗传 
算法 思想 的 网 络 信息 定 题 搜 索 应 用 ”。 由 于 遗传 算法 是 一 种 启发 式 的 有 向 随机 搜索 算法 ， 
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在 进化 过 程 中 是 否 收敛 到 全 局 最 优 解 成 为 其 应 用 于 实际 问题 是 否 成 功 的 关键 。 

粗糙 集 理论 是 一 种 新 型 的 处 理 模 糊 和 不 确定 信息 的 数学 工具 ,其 基本 思想 是 在 保持 
分 类 能 力 不 变 的 前 提 下 ,通过 知识 的 约 简 导 出 概念 的 分 类 规则 。 粗 糙 集 理论 最 大 的 优点 
在 于 无 须 人 为 地 额外 假设 条 件 ,而 是 完全 由 已 知 数据 来 如 实地 回答 问题 ,从 而 开辟 了 一 条 
与 传统 智能 信息 处 理 方法 所 截然 不 同 的 新 途径 。 

浏览 检索 模型 是 信息 用 户 的 一 种 重要 信息 查询 与 获取 模型 ,在 用 户 的 信息 需求 比较 
明确 时 ,可 以 直接 从 检索 系统 进行 检索 和 浏览 ,检索 和 浏览 是 用 户 查找 和 发 现 信息 资源 的 
两 种 基本 手段 。 浏 览 方式 主要 依靠 系统 中 预定 义 的 某 种 信息 组 织 和 导航 机 制 ,通过 用 户 
的 访问 和 探寻 来 发 现 一 些 相关 的 或 未 曾 预 料 的 有 用 信息 。 


本 章 思考 与 练习 题 


1. 信息 检索 最 一 般 的 基础 数学 原理 是 什么 ? 

2. 布尔 迎 辑 运算 符 有 哪 三 种 ?请 分 别 拟定 一 个 检索 主题 并 用 简 图 进行 说 明 。 
3. 布尔 检索 模型 有 何 主要 特点 ? 

4. 举例 说 明 模 糊 集合 的 信息 检索 应 用 。 

5. 为 什么 说 扩展 布尔 检索 模型 是 一 种 混合 模型 ? 

6. 向 量 空间 模型 的 含义 是 什么 ? 说 明基 于 向 量 空间 模型 的 信息 检索 一 般 过 程 。 
7. 向 量 空间 信息 检索 模型 有 何不 足 之 处 ? 

8. 港 在 语义 索引 模型 的 含义 什么 ”其 基本 思想 是 什么 ? 

9. 与 传统 的 向 量 空间 模型 相 比 ,LSI 有 哪些 优点 ? 

10. 神经 网 络 模型 的 基本 思想 是 什么 ”如 何 理解 反 向 传播 学 习 算法 (BP) 的 含义 ? 
11. 神经 网 络 模型 有 哪些 基本 属性 ? 

12. 说 明 经 典 概 率 检索 模型 的 基本 指导 思想 。 

13. 贝 叶 斯 网 络 检索 模型 的 基本 含义 是 什么 ? 

14. 贝 叶 斯 网 络 检索 模型 的 网 络 拓扑 结构 的 建立 基于 哪些 假设 ? 

15. 进化 计算 与 遗传 算法 对 信息 检索 技术 研究 有 何 作用 ? 

16. 粗糙 集 理论 的 基本 思想 是 什么 ” 有 哪些 主要 特点 ? 


第 6 童 文本 分 类 与 文本 索引 构建 


文本 分 类 (text categorization ,TC) 又 称 为 文本 自动 分 类 , 它 是 信息 检索 和 文本 挖掘 
的 重要 基础 。 分 类 任务 就 是 通过 学 习 得 到 一 个 目标 函数 , 即 分 类 模型 ,通过 此 分 类 模型 把 
每 个 属性 集 映 射 到 一 个 预先 定义 的 类 中 。 文 本 分 类 是 在 预定 义 的 分 类 体系 下 ,根据 文本 
的 特征 即 文本 的 内 容 , 将 给 定 文本 与 一 个 或 多 个 类 别 文本 进行 相互 关联 的 过 程 。 文 本 自 
动 分 类 能 较 好 地 解决 大 量 检索 文档 信息 归 类 的 问题 并 可 以 应 用 到 很 多 方面 ,如 文本 信息 
组 织 文本 识别 .智能 搜索 .邮件 过 滤 等 ,因此 对 文本 分 类 的 学 习 与 研究 具有 重要 的 理论 意 
义 和 实 用 价值 。 文 本 分 类 是 一 种 具有 指导 性 的 自动 学 习 机 制 , 是 根据 一 个 已 经 被 标注 的 
训练 文档 集合 找到 其 文档 特征 和 文档 类 别 之 间 的 关系 模型 ,然后 利用 这 种 学 习 到 的 关系 
模型 对 未 被 标注 的 文档 进行 类 别 判断 。 文 本 分 类 作为 文本 信息 过 滤 文本 信息 检索 、 文 本 
数据 创建 .数字 化 图 书馆 建设 ,大 型 专用 数据 库 检索 系统 或 网 络 搜索 引擎 构建 等 领域 的 技 
术 基 础 ,有 着 广泛 的 应 用 前 景 。 

文本 分 类 技术 属于 一 种 有 监督 (supervised) 机 器 学 习 方 法 。 一 般 来 说 ,文本 分 类 的 过 
程 如 下 : 获取 训练 文本 集 , 训 练 文本 集 由 一 组 经 过 预 处 理 的 文本 特征 向 量 组 成 ,每 个 训练 
文本 样本 有 一 个 类 别 标号 。 利 用 训练 文本 集 对 初始 分 类 模型 进行 训练 并 得 出 分 类 判别 模 
型 。 利 用 训练 得 到 的 分 类 判别 模型 对 其 他 待 分 类 文本 进行 自动 分 类 和 归 类 。 由 于 文本 分 
类 的 主要 任务 就 是 在 预先 给 定 的 类 别 体系 下 ,通过 对 有 标记 文本 集 的 学 习 , 将 文本 集中 未 
标记 的 文本 对 象 映射 到 预 设 的 类 别 中 ,因此 文本 分 类 能 很 好 地 满足 信息 检索 对 文本 信息 
组 织 提出 的 重要 需求 。 

文本 分 类 的 方法 有 决策 树 分 类 方法 .k- 最 邻近 分 类 方法 .KNN 算法 和 朴素 贝 叶 斯 分 
类 方法 等 。 不 同方 法 的 精度 各 不 相同 ,适用 的 领域 也 不 一 样 。 在 这 些 方法 中 ,朴素 贝 叶 斯 
分 类 方法 的 验证 结果 比 预 设 想象 要 好 ,其 目标 是 在 测试 数据 或 新 数据 (new data) 上 获得 
高 精确 率 的 结果 。 文 本 分 类 的 关键 问题 是 如 何 构造 一 个 分 类 函数 或 分 类 模型 (也 称 为 分 
类 器 ) ,并 利用 此 分 类 模型 将 未 知 文本 映射 到 给 定 的 类 别 空间 。 分 类 器 的 构造 方法 有 多 
种 ,主要 有 统计 方法 、 机 器 学 习 方 法 、 神 经 网 络 方法 等 。 

朴素 贝 叶 斯 分 类 器 是 贝 叶 斯 分 类 器 中 最 常用 的 方法 ,也 是 一 种 基于 概率 统计 的 方法 。 
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朴素 贝 叶 斯 分 类 方法 是 基于 条 件 “ 独 立 性 假设 ”, 因 此 它 适合 于 处 理 属性 个 数 较 多 的 分 类 
任务 ,而 文本 分 类 正 是 适应 了 这 种 多 属性 的 分 类 任务 ,因此 朴素 贝 叶 斯 成 为 文本 分 类 的 一 
种 常用 分 类 方法 , 它 也 是 目前 公认 的 一 种 简单 有 效 的 概率 分 类 方法 。 


6.1 文本 分 类 概述 


分 类 是 指 将 给 定 对 象 归 和 人 一 个 或 者 多 个 类 别 的 过 程 ,通常 来 说 ,类 别 往往 是 一 个 一 般 
的 主题 领域 ,而 不 是 很 狭窄 的 固定 范围 ,面向 文本 的 分 类 任务 则 称 为 文本 分 类 。 分 类 不 一 
定 要 使 用 计算 机 ,很 多 分 类 任务 都 是 通过 人 工 来 完成 的 ,但 是 人 工分 类 的 方法 一 旦 要 规模 
化 则 开销 会 很 大 。 可 以 采用 直接 利用 固定 查询 将 其 想象 成 某 种 规则 来 进行 分 类 ,这 些 规 
则 一 般 是 由 人 工 编写 的 。 这 些 规则 通过 关键 词 的 某 种 组 合 来 代表 一 个 类 别 。 人 工 编写 的 
规则 具有 很 好 的 扩展 性 ,但 是 创建 和 长 时 间 维 护 这 些 规则 需要 很 高 的 人 力 成 本 。 

除了 效率 低 的 手工 分 类 和 人 工 编写 规则 之 外 ,还 存在 高 效率 的 基于 机 器 学 习 的 分 类 
方法 。 当 学 习 方 法 基于 统计 时 ,这 种 方法 也 称 为 统计 文本 分 类 。 在 统计 文本 分 类 中 ,对 于 
每 个 类 别 需要 一 些 良好 的 文档 样 例 。 由 于 需要 人 来 标注 训练 文档 ,所 以 对 人 工分 类 的 需 
求 仍然 存在 。 标 注 是 指 对 每 篇 文档 赋予 类 别 标签 的 工作 。 文 本 分 类 任务 从 数学 的 角度 来 
看 就 是 一 个 映射 过 程 ,可 以 使 用 如 下 的 数学 模型 来 描述 。 

文本 分 类 中 ,给 定 文档 dE X 和 一 个 固定 的 类 别 集合 C 二 {ao,cs，…,cj) ,其 中 XX 表示 
文档 空间 ,类 别 (class) 也 通常 称 为 category 或 label。 一 般 文档 空间 X 是 某 种 类 型 的 高 维 
空间 ,而 类 别 通常 由 人 们 根据 具体 应 用 需求 来 定义 ,比如 China 类 及 有 关 computer 
hardware 的 文档 类 。 给 定 已 经 标识 好 类 别 的 训练 集 (training set)D==(d,c), 其 中 
(dcyEXXC, 例 如 

(d,c) = (Beijing joins the World Trade Organization, China) 
表示 一 句 话 文档 Beijing joins the World Trade Organization 被 标记 为 China 类 。 利 用 某 
种 学 习 方法 (learning method) 或 学 习 算 法 (learning algorithm) 可 得 到 某 个 分 类 函数 
(classification function)y,y 可 以 将 文档 映射 到 类 别 : 
7y: X—C 

由 于 监督 者 (定义 类 别 体系 并 标注 训练 集 的 人 ) 在 学 习 过 程 中 起 到 类 似 导 师 的 作用 ， 
所 以 这 种 类 型 的 学 习 称 为 有 监督 的 学 习 。 这 里 把 有 监督 学 习 方法 记 为 卫 , 故 有 了 有 CD) 一 7y。 
荆 以 训练 文档 集 DD 为 输入 ,返回 学 习 到 的 分 类 函数 y。 

下 面 简 述 分 类 任务 : 给 定 文档 集合 D 二 {Di ,D;,…,D,},D; 表示 第 i 篇 文档 。D 由 
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篇 文档 组 成 ;预先 定义 的 文档 类 别 集合 C 二 (Ci,C:,… ,Clcl}。 假 设 文档 集合 与 类 别 存 在 
一 个 未 知 的 目标 函数 : 


6: DXC— {True,False} (6-1) 
文本 分 类 任务 可 以 描述 为 要 努力 找到 的 一 个 函数 : 
G: DXC— {True,False} (6-2) 


使 6 尽量 到 近 未 知 的 目标 函数 @,@ 称 为 分 类 器 (classifier) 或 者 模型 (model)。 如 果 
GB(D;,C;) 二 True, 则 文档 D; 属于 类 别 C;;@B(D;,C;) 二 False, 则 文档 D; 不 属于 类 别 C;。 
也 就 是 说 ,文本 分 类 的 最 终 目的 就 是 要 找到 一 个 有 效 的 隐 射 函数 ,准确 地 实现 DXC 到 值 
True 或 False 的 映射 。 

中 文 文本 不 像 英 文 文本 那样 单词 与 单词 之 间 有 空格 ,因此 中 文 文本 分 类 需要 进行 中 
文 分 词 。 如 今 ,中 文 分 词 的 技术 已 趋 于 成 熟 , 主 要 有 中 国 科 学 院 计 算 技 术 研 究 所 研制 的 汉 
语词 法 分 析 系 统 ICTCLAS。 结 合 中 文 文本 的 特点 ,逐步 形成 了 中 文 文本 信息 的 分 类 研究 
体系 。 一 个 完整 的 中 文 文本 分 类 系统 通常 由 几 个 紧密 联系 的 功能 模块 组 成 。 

(1) 文本 预 处 理 : 文本 预 处 理 是 对 文档 进行 分 词 , 去 除 停 用 词 ,其 中 中 文 分 词 是 文本 
预 处 理 的 首要 步 又 。 

(2) 文本 表示 : 文本 表示 是 文本 分 类 的 基础 。 要 将 计算 机 技术 应 用 到 文本 分 类 上 , 必 
须 把 文档 转化 为 计算 机 容易 处 理 的 表示 形式 。 目 前 使 用 最 普遍 的 文本 表示 方式 是 向 量 空 
间 模 型 。 

(3) 文本 特征 选择 : 特征 选择 的 目的 是 为 了 维 数 约 简 ,从 文档 中 抽取 出 若干 最 有 利于 
文本 分 类 的 特征 项 。 

(4) 特征 权重 计算 : 特征 权重 是 用 于 衡量 某 个 特征 项 在 文档 表示 中 的 重要 程度 或 者 
区 分 能 力 的 强 弱 。 

(5) 分 类 器 学 习 训练 : 分 类 器 学 习 训 练 的 目的 是 建立 分 类 器 ,是 文本 分 类 的 核心 问 
题 。 利 用 一 定 的 学 习 算 法 对 训练 样本 集 进行 统计 学 习 , 估 算出 分 类 器 的 各 个 参数 ,从 而 建 
立 对 训练 集 进行 学 习 训 练 的 自动 分 类 器 。 

(6) 测试 与 评价 : 利用 学 习 训练 阶段 建立 的 分 类 器 ,对 测试 集 文档 进行 分 类 测试 。 在 
完成 训练 和 测试 后 ,选择 合适 的 评价 指标 对 分 类 器 的 性 能 进行 评价 。 如 果 分 类 性 能 不 符 
合 要 求 ,需要 返回 前 面 步骤 。 

按照 文本 分 类 的 工作 顺序 ,文本 分 类 可 以 分 为 三 大 阶段 。 

第 一 阶段 : 将 文本 表示 成 文本 向 量 。 这 个 阶段 需要 完成 的 工作 是 先 对 文本 进行 预 处 
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理 , 然 后 进行 特征 选择 和 特征 权重 计算 后 ,将 文本 转换 成 向 量 空 间 模 型 的 形式 。 

第 二 阶段 : 学 习 训 练 阶段 。 选 择 分 类 方法 ,使 用 已 经 表示 成 文本 向 量 的 训练 集 来 建 
立 分 类 模型 。 

第 三 阶段 : 测试 与 评价 。 将 第 二 阶段 建立 好 的 分 类 模型 运用 于 测试 集 来 检验 分 类 效 
果 , 并 使 用 评价 指标 对 分 类 模型 的 性 能 进行 评价 。 

目前 基于 统计 机 器 学 习 的 文本 分 类 技术 相对 成 熟 ,被 广泛 应 用 于 很 多 检索 系统 和 网 
络 检索 工具 。 其 中 包括 基于 概率 方法 的 朴素 贝 叶 斯 分 类 器 、 基 于 实例 的 & 近 邻 分 类 器 、 基 
于 统计 学 习 理 论 和 结构 风险 最 小 原理 基础 上 的 支持 向 量 机 方法 。 还 有 其 他 的 分 类 方法 ， 
包括 线性 分 类 器 、 回 归 模 型 .神经 网 络 、 决 策 树 方法 等 。 基 于 机 器 的 学 习 方 法 很 少 考虑 文 
本 语义 信息 ,目前 研究 者 大 多 是 把 语义 分 析 、 概 念 网 络 和 机 器 学 习 方 法 相 结 合 ,从 概念 级 
来 获取 文本 的 语义 ,进而 提高 文本 分 类 的 效果 。 


6.2 朴素 贝 叶 斯 文本 分 类 


朴素 贝 叶 斯 文本 分 类 (naive Bayes classification,NBC) 的 一 个 前 提 假 设 是 : 在 给 定 的 
文档 集中 ,文档 属性 是 相互 独立 的 。 朴 素 贝 叶 斯 分 类 是 建立 在 经 典 的 贝 叶 斯 概率 理论 基 
础 之 上 ,其 基本 思想 是 利用 特征 项 和 类 别 的 条 件 概率 来 估算 给 定 文档 的 类 别 概率 ,是 一 种 
基于 概率 统计 的 分 类 方法 。 朴 素 贝 叶 斯 分 类 是 贝 叶 斯 学 习 方法 中 最 常用 的 方法 ,也 是 一 
种 简单 而 又 非常 有 效 的 分 类 方法 。 贝 叶 斯 分 类 模型 是 一 种 典型 的 基于 统计 方法 的 分 类 模 
型 。 贝 叶 斯 定理 是 贝 叶 斯 理论 中 最 重要 的 一 个 公式 ,是 贝 叶 斯 学 习 方 法 的 理论 基础 , 它 将 
事件 的 先 验 概率 与 后 验 概 率 巧 妙 地 联系 起 来 ,充分 利用 先 验 信息 和 样本 数据 信息 确定 事 
件 的 后 验 概率 。 


6.2.1 贝 叶 斯 分 类 器 

朴素 贝 叶 斯 文本 分 类 的 主要 工作 是 设计 分 类 器 ,目前 贝 叶 斯 分 类 器 主要 有 两 种 。 

一 种 是 朴素 贝 叶 斯 分 类 器 , 它 是 贝 叶 斯 分 类 模型 中 最 简单 .最 有 效 而 且 在 实际 使 用 中 
非常 成 功 的 分 类 器 ,其 性 能 可 以 与 神经 网 络 .决策 树 相 媲美 。 朴 素 贝 叶 斯 分 类 模型 基于 假 
定 特 征 向 量 的 各 分 量 间 相 对 于 决策 变量 是 相对 独立 的 , 即 条 件 独立 性 假设 。 尽 管 这 一 假 
定 在 一 定 程 度 上 限制 了 朴素 贝 叶 斯 分 类 模型 的 适用 范围 ,但 在 实际 应 用 中 ,降低 了 贝 叶 斯 
网 络 构建 的 复杂 性 。 朴 素 贝 叶 斯 分 类 模型 已 成 功 地 应 用 到 聚 类 、 分 类 等 数据 挖掘 ,大 数据 
处 理 的 查询 与 搜索 任务 中 。 
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为 了 突破 朴素 贝 叶 斯 分 类 器 的 独立 性 假设 条 件 的 限制 ,人 们 通过 改变 其 结构 假设 的 
方式 来 达到 目的 。 例 如 半 朴 素 贝 叶 斯 分 类 器 SNBC(semi-naive bayesian classifier) 、 树 扩 
张 型 TAN(tree-augmented bayesian classifier) 及 增强 型 贝 叶 斯 分 类 器 BAN(Bayesian 
network augmented naive Bayes) 等 。 这 些 分 类 器 具有 如 下 特点 。 

(1) 贝 叶 斯 分 类 并 不 把 一 个 对 象 绝对 地 指派 给 某 一 类 ,而 是 通过 计算 得 出 属于 某 一 类 
的 概率 ,具有 最 大 概率 的 类 便 是 该 对 象 所 属 的 类 。 

(2) 一 般 情况 下 在 贝 叶 斯 分 类 中 所 有 的 属性 都 潜在 地 起 作用 , 即 并 不 是 一 个 或 几 个 
属性 决定 分 类 ,而 是 所 有 的 属性 都 参与 分 类 。 

(3) 贝 叶 斯 分 类 对 象 的 属性 可 以 是 离散 的 、 连 续 的 ,也 可 以 是 混合 的 。 

另 一 种 是 贝 叶 斯 网 络 分 类 器 , 贝 叶 斯 网 络 又 称 为 信念 网 络 , 它 是 基于 后 验 概念 的 贝 叶 
斯 定理 。 贝 叶 斯 网 络 是 一 个 有 向 无 环 图 ,其 中 节点 代表 论 域 中 的 变量 ,有 向 弧 代表 变量 的 
关系 ,变量 之 间 的 关系 强 弱 由 节点 与 其 父 节 点 之 间 的 条 件 概 率 来 表示 ,通过 贝 叶 斯 网 络 可 
以 准确 地 反映 实际 应 用 中 变量 之 间 的 依赖 关系 。 贝 叶 斯 网 络 可 用 于 分 类 、 聚 类 、 数 据 挖 
掘 ,大 数据 处 理 ` 人 工 神 经 网 络 .预测 和 因果 关系 分 析 等 。 贝 叶 斯 网 络 分 类 器 具有 很 强 的 
学 习 、 推 理 能 力 ,能 很 好 地 利用 先 验 知识 。 


6.2.2 条 件 概率 和 乘法 定理 

在 事件 A 已 经 发 生 的 条 件 下 事件 B 发 生 的 概率 , 称 为 事件 B 在 给 定 事件 A 的 条 件 
概率 (也 称 为 后 验 概率 ) , 记 作 P(B|1A)。 相 应 地 ,P(A) 称 为 无 条 件 概率 (也 称 先 验 概率 )， 
条 件 概率 可 以 依照 下 式 进行 计算 : 
P(AB) 


P(B | A) = -Piay (6-3) 
由 条 件 概率 可 求 得 概率 的 乘法 定理 : 
P(A.B)= P(B|A)P(A) (6-4) 


对 于 nn 个 事件 Ai,A:,…,A,,n 宇 2, 则 有 
P(Ai,As,*%,A,) = P(A, | 4 .4…4)P(O4 | A * As*%…A2)°** P(As | AVP(A) 
(6=5) 


6.2.3 极 大 后 验 假设 和 极 大 似 然 假设 
定义 : 极 大 后 验 假设 : 在 许多 学 习 场 景 中 ,学 习 器 考虑 候选 假设 集合 采 , 并 在 其 中 寻 
找 给 定 的 数据 D 时 的 可 能 性 最 大 假设 hE 订 。 这 样 具 有 最 大 可 能 性 的 假设 被 称 为 极 大 后 
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验 假设 (maximum a posteriori, MAP), 记 作 : huar。 


PD | Wp) 
p(D) 


=arg maxp (D | Rh) p(n) (6-6) 

去 掉 P(D) ,因为 它 不 依赖 于 h 常量 ,上 式 就 是 一 个 原始 的 分 类 模型 , 贝 叶 斯 分 类 就 

是 根据 上 述 MAP 假设 找 出 的 新 实例 最 有 可 能 的 分 类 。 所 有 对 贝 叶 斯 分 类 模型 的 研究 工 

作 都 是 以 此 假设 为 前 提 条 件 的 。 在 某 些 情况 下 ,可 假定 也 中 的 每 个 假设 都 有 相同 的 先 验 

概率 ( 即 对 五 中 的 任意 的 h; 和 hh;, 有 PC(h;)= 二 PC(hj)), 这 时 可 以 把 式 (6-4) 进 一 步 进 行 简 

化 ,只 考虑 p(h1D) 来 寻找 极 大 可 能 假设 ,p(D1h) 常 被 称 为 给 定 h 时 数据 D 的 似 然 度 ,而 
使 得 pCDIh) 最 大 的 假设 成 为 极 大 似 然 假 设 , 记 作 : hm 。 

hu = arg maxp (D 1h) (6-7) 

与 机 器 学 习 问 题 相 联系 ,把 数据 D 称 为 某 目标 函数 的 训练 样本 ,把 互 称 为 候选 目标 

函数 空间 。 


huap arg maxp (h LDS arg Max 


6.2.4 贝 叶 斯 定理 

定义 1: 如 果 P 是 R 上 的 一 个 实 值 函数 , 即 对 每 一 个 AER, 有 一 个 实 函 数 P(A) 与 之 
对 应 ,并 且 满 足以 下 三 点 。 

非 负 性 : 对 任意 AER,P(A) 宇 0。 

规范 性 : P(R) 二 1。 

可 加 性 : 若 Ai,As,…,A,,… 是 R 中 的 两 两 不 相 容 的 事件 , 则 

P(YA) = DP(A) (6-8) 

称 P 了 是 (Q,R) 上 的 一 个 概率 (测度 ) ,P(A) 称 为 事件 A 的 概率 ,三 元 组 (Q,R,P) 称 为 概率 
空间 。 

定义 2; 设 (Q,R,P) 为 一 概率 空间 ,A、BER, 且 P(A) 宇 20, 则 


P(ABY 
P(B|A)= EC 


称 为 已 知 A 发 生 时 B 的 条 件 概率 。 


全 概率 公式 , 设 A1,As,…,A,E R, 两 两 不 相 容 ,P(A) 之 0,i 二 1,2,…,n, 且 Ai 一 
0Q, 则 对 任何 事件 BER, 有 


(6-9) 


第 6 章 文本 分 类 与 文本 索引 构建 / 151 


P(B)= ZP(B | AD)PCA) (6-10) 
i=1 


贝 叶 斯 公式 : 设 Ail,As,…,A, ER, 两 两 不 相 容 ,P(A) 宇 0,i 二 1,2,…,n, 则 对 于 任何 
满足 P(B) 宇 0 的 B,BER, 有 
P(B | Ai)P(Ai) 


P(A; | B) (6-11) 
D7PCUB| ADPOA) 
6.2.5 多 项 式 朴素 贝 叶 斯 
此 方法 中 ,文档 d 属于 类 别 c 的 概率 的 计算 方法 如 下 : 
P(clad)ec Pe) [IL Pa lec) (6-12) 


其 中 ,P(Gulc) 是 生出 现在 类 * 文档 中 的 条 件 概率 ,也 可 以 把 PCxlc) 视 为 当 正 确 类 为 
c 时 44 的 贡献 程度 。P(c) 是 文档 出 现在 类 c 中 的 先 验 概率 。 如 果 根 据 文档 的 词 项 并 不 能 
清晰 地 区 分 它 属 于 哪 一 类 时 ,我 们 就 选择 先 验 概率 最 大 的 那个 类 。(4yz,… 居 ?是 d 中 
的 词 条 ,它们 是 分 类 所 用 词汇 表 的 一 部 分 ,na 是 d 中 所 有 词 条 的 数目 。 例 如 ,对 于 单 句 文 
档 Beijing and Taipei join the WTO, 如 果 将 and 和 the 视 为 停 用 词 过 滤 掉 ,那么 这 里 的 
ai) 就 可 以 是 (Beijing,Taipei,join,WTO) ,其 中 xz 一 4。 
在 文本 分 类 中 ,我 们 的 目标 是 找 出 文档 最 可 能 属于 的 类 别 。 对 于 NB 分 类 来 说 ,最 可 
能 的 类 是 具有 MAP(maximum a posteriori, 最 大 后 验 概率 ) 估 计 值 的 结果 Cp: 
com = arg max P(e | d) 一 argmaxP(c) [| Palo (6-13) 


由 于 我 们 不 知道 参数 的 真实 值 ,所 以 上 述 公式 中 采用 了 从 训练 集中 得 到 的 估计 值 来 代 
将 P。 

对 所 有 的 1k 过 na ,计算 其 对 应 的 条 件 概率 的 乘积 ,这 可 能 会 导致 浮 点 数 下 界 溢出 。 
因此 ,更 好 的 方法 是 引入 对 数 , 从 而 将 原 公式 的 计算 转变 成 多 个 概率 的 对 数 之 和 。 由 于 
log(xy) 王 log(x) 十 log(y), 且 log 是 单调 递增 函数 ,因此 具有 较 高 概率 对 数值 的 类 别 就 是 
最 有 可 能 的 类 别 。 因 此 ,大 多 数 NB 在 实现 时 所 求 的 最 大 值 实际 是 

Cup. = arg max P(e | 如 > = arg max| log Ple) 十 P| logP(hi | c)] (6-14) 


1<i<ny 


对 于 上 式 , 有 个 简单 的 解释 ,条 件 参数 log P(1i1c) 表 示 的 是 4 在 类 别 c 中 的 权重 ,而 
对 数 先 验 值 log P(e) 表 示 的 是 类 别 c 的 相对 频率 的 一 个 权重 值 。 相 对 于 低频 类 而 言 , 高 频 
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类 更 可 能 是 正确 类 。 类 别 的 对 数 先 验 值 和 词 项 在 类 别 中 权重 累加 求 和 之 后 就 得 到 了 文档 
属于 类 别 的 可 能 程度 , 式 (6-14) 选 择 最 可 能 的 类 别 作为 最 终 的 类 别 。 
我 们 先 基于 这 种 直观 解释 来 使 用 上 述 公 式 ,这 实际 上 是 多 项 式 NB 模型 的 一 个 解释 。 


如 何 估计 参数 P(c) 及 Pu lc) 呢 ? 首先 我 们 使 用 最 大 似 然 估计 (MLE) , 它 实际 上 最 后 算 

出 的 是 相对 频率 值 , 这 些 值 能 使 训练 数据 的 出 现 概 率 最 大 。MLE 估计 下 的 类 别 先 验 概 
二 和 号 
P(c) = N (6-15) 


其 中 ,NN。 是 训练 集合 中 c 类 所 包含 的 文档 数目 ,而 N 是 训练 集合 中 的 文档 总 数 。 条 
件 概率 Plc) 的 估计 值 为 :在 < 类 文档 中 出 现 的 相对 频率 : 
Pd lc)= 一 < (6-16) 


其 中 ,Ts 是 1 在 训练 集合 c 类 文档 中 出 现 的 次 数 ,在 对 每 篇 文档 计算 时 用 的 是 其 在 文 
档 中 多 次 出 现 的 词 频 。 这 里 我 们 引入 了 位 置 独立 性 假设 (positional independence 
assumption) ,在 该 假设 下 ,T 是: 在 训练 集 某 类 文档 中 所 有 位 置 人 上 的 出 现 次 数 之 和 。 
这 样 对 于 不 同位 置 上 的 概率 值 都 采用 相同 的 估计 办 法 ,比如 ,如 果 某 词 在 一 篇 文档 中 出 现 
过 两 次 ,分 别 在 和 kz 的 位 置 上 ,那么 假定 PC [0=PC, ley 

最 大 似 然 估计 (MLE) 的 一 个 问题 是 : 对 没有 在 训练 集中 出 现 的 词 项 和 类 别 项 来 说 ， 
其 MLE 估计 值 为 0。 比 如 ,如 果 在 训练 集 上 ,WTO 仅仅 在 China 类 文档 中 出 现 , 那 么 对 


于 其 他 类 (如 UK) ,采用 MLE 估计 的 概率 值 就 会 为 0, 即 PCWTOIUK)=0。 

现在 ,假定 有 一 篇 单 句 文档 为 Britain is a member of the WTO ,那么 按照 公式 (6-12) 
来 计算 其 属于 UK 类 的 条 件 概 率 值 就 为 0。 很 显然 ,由 于 文档 中 包含 Britain, 此 时 应 该 为 
其 属于 UK 类 的 条 件 概率 赋予 一 个 较 高 的 值 。 也 就 是 说 ,此 时 不 能 对 WTO 属于 UK 类 
的 概率 值 赋 0, 因 为 一 旦 出 现 0 值 ,其 他 词 项 的 概率 再 高 也 没有 意义 。 出 现 零 概 率 的 主要 
原因 来 自 数据 的 稀疏 性 (sparseness) , 即 训练 集合 永远 都 不 可 能 大 到 所 有 罕见 事件 都 能 出 
现 ,这 样 就 难以 计算 这 些 事件 的 频率 。 比 如 ,上 面 要 计算 的 WTO 出 现在 UK 类 文档 中 的 

为 了 去 掉 零 概率 ,一 个 简单 的 方法 是 采用 加 一 平滑 (add-one smoothing) 或 拉 普 拉 斯 
平滑 (Laplace smoothing) , 即 在 每 个 数字 上 加 1: 
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Tuat+l1 Tat+l 
> (Tv 十 D) >)Tw 十 了 B 


EV EV 
其 中 ,B= |V| 是 词汇 表 中 所 有 词 项 的 数目 。 加 一 平滑 可 以 认为 是 采用 均匀 分 布 作为 
先 验 分 布 ( 每 个 词 项 在 每 个 类 中 出 现 一 次 ) ,然后 根据 训练 数据 进行 更 新 得 到 的 结果 。 
到 此 ,已 给 出 了 文本 训练 和 应 用 贝 叶 斯 分 类 器 的 所 有 环节 ,完整 的 算法 描述 如 图 6-1 
所 示 。 


C6=17» 


PC | c) 


TRAINMULTIONOMIALNB(C, D) 

1. 了 一 EXTRACTVOCABULARY(D) 

2.N — COUNTDOCS(D) 

3.foreachc EC 

4. do N. ~— COUNTDOCSINCLASS(D, c) 

5. prior[c] 一 NA/N 

6. texi. — CONCATENATETEXTOFALLDOCSINCLASS(D, co) 
7.foreachiEV 

8. do T, — COUNTTOKENSOFTERM(texi,, 1) 
9.foreacht EV 

10. do condprob[dl[c] 一 

11. return V, prior, condprob 
APPLYMULTINOMIALNBI(C, V, prior, condprob, a) 
1l.W*— EXTRACTTOKENSFREMDOC(Y, a) 
2.foreachcEC 

3. do score[c] 一 log prior[c] 

4.foreacht EW 

5. do score[c] += log condprob[[c] 

6. return arg max, ec. Score[c] 


图 6-1 多 项 式 贝 叶 斯 训练 和 应 用 分 类 算法 


6.3 朴素 贝 叶 斯 分 类 模型 改进 


朴素 贝 叶 斯 分 类 器 是 基于 一 个 简单 的 假定 : 在 给 定 分 类 特征 条 件 下 属性 值 之 间 是 相 
互 条 件 独立 的 。 在 现实 世界 中 , 它 的 属性 独立 性 假设 使 其 无 法 表示 实际 应 用 中 各 属性 之 
间 的 依赖 关系 ,影响 了 它 的 分 类 性 能 。 因 此 需要 针对 实际 应 用 对 朴素 贝 叶 斯 分 类 器 模型 
进行 改进 ,使 之 在 属性 独立 性 假设 不 满足 的 情况 下 依然 具有 较 高 的 分 类 精度 。 


6.3.1 改进 方法 
朴素 贝 叶 斯 分 类 器 的 本 质 是 一 种 具有 很 强 限 制 条 件 的 贝 叶 斯 网 络 分 类 器 ,但 是 它 限 
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制 条 件 太 强 , 不 适 于 很 多 现实 应 用 情况 。 然 而 完全 无 限制 条 件 的 贝 叶 斯 网 络 也 是 不 现实 
的 ,因为 学 习 这 样 的 网 络 非 常 耗 时 ,其 时 间 复 杂 度 为 属性 变量 的 指数 级 ,并 且 空 间 复 杂 度 
也 非常 高 。 因 此 ,研究 朴素 贝 叶 斯 分 类 器 的 改进 模型 ,只 能 从 这 两 者 之 间 来 考察 , 即 研 究 
其 有 和 较 宽松 条 件 限 制 的 贝 叶 斯 网 络 分 类 器 。 

(1) 属性 删除 方法 : 适用 于 存在 元 余 属性 的 情况 。 学 者 Langley 和 Sage 提出 了 一 种 
基于 属性 删除 的 选择 性 贝 叶 斯 分 类 器 。 当 存在 一 些 属性 依赖 于 其 他 属性 ,特别 是 存在 宛 
余 属 性 时 ,属性 删除 方法 确实 能 够 改善 朴素 贝 叶 斯 分 类 器 的 预测 精度 。 

(2) 构造 新 属性 或 概率 调整 方法 : 适用 于 某 些 属性 依赖 于 其 他 属性 时 。 学 者 Pazzani 
等 提出 了 通过 相互 依赖 的 属性 构造 一 个 新 属性 ,并 用 新 属性 取代 原来 相互 依赖 的 那些 属 
性 方法 。 这 种 方法 也 可 视 为 事先 的 条 件 概 率 调整 方法 。 学 者 Wang 和 Webb 等 提出 了 一 
种 半 懒 惰 式 (semi-lazy) 的 限制 性 贝 叶 斯 网 络 分 类 器 的 条 件 概 率 调整 方法 ,在 某 些 情况 下 
可 以 减 小 误 分 类 率 。 

(3) 局 部 朴素 贝 叶 斯 分 类 器 : 适用 于 属性 之 间 相 互 依赖 情形 比较 复杂 的 情况 。 这 种 
方法 是 为 属性 变量 的 每 一 种 取 值 (或 某 个 范围 ) 建 立 一 个 朴素 贝 叶 斯 分 类 器 ,也 就 是 说 , 单 
一 的 全 局 朴素 贝 叶 斯 分 类 器 被 许多 局 部 朴素 贝 叶 斯 分 类 器 所 代替 ,将 属性 独立 性 假设 放 
宽 到 只 要 局 部 属性 独立 就 可 以 了 。 学 者 Kohavi 将 朴素 贝 叶 斯 分 类 器 和 决策 树 相 结合 ,用 
一 棵 决策 树 来 分 割 实例 空间 ,在 每 个 叶子 节点 上 建立 局 部 朴素 贝 叶 斯 分 类 器 ,学 者 Zheng 
等 利用 懒惰 式 学 习 策 略 提 出 了 一 种 懒惰 式 贝 叶 斯 规则 (lazy bayesian rule) 学 习 方 法 ,该 方 
法 将 懒惰 式 方 法 应 用 到 局 部 朴素 贝 叶 斯 规则 的 归纳 中 ,该 算法 虽然 较 大 地 提高 了 分 类 精 
确 度 ,但 是 效率 很 低 。 

(4) 树 扩张 型 贝 叶 斯 方法 : 学 者 Friedman 等 提出 了 一 种 树 扩张 型 贝 叶 斯 方法 。 这 种 
方法 的 基本 思路 是 放宽 朴素 贝 叶 斯 的 独立 性 假设 条 件 ,扩展 朴素 贝 叶 斯 的 结构 ,使 其 能 够 
容纳 属性 间 存 在 具有 某 种 特征 的 依赖 关系 。 利 用 条 件 相 互信 息 (conditional mutual 
information) 建 立 属性 之 间 的 依赖 关系 矩阵 ,构造 一 棵 最 大 权 生 成 树 作为 一 个 分 类 器 。 由 
于 限制 每 个 属性 节点 最 多 有 一 个 非 类 变量 (类 标识 ) 的 父 节 点 ,也 就 是 说 每 个 属性 节点 最 
多 仅 依赖 于 一 个 非 类 标识 节点 ,使 其 表示 依赖 关系 的 能 力 受到 限制 。 

(5) 限定 性 双 层 贝 叶 斯 分 类 模型 : 学 者 石 洪 波 等 提出 了 一 种 限定 性 的 双 层 贝 叶 斯 
分 类 模型 ,这 种 方法 的 出 发 点 是 通过 对 属性 空间 的 搜索 , 找 出 一 些 对 其 他 属性 有 较 强 影 
响 的 属性 ,那么 所 有 其 他 的 属性 仅 通 过 与 这 些 属 性 的 关联 就 可 以 将 重要 的 依赖 关系 表 
示 出 来 。 
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6.3.2 朴素 贝 叶 斯 分 类 的 提升 模型 

对 朴素 贝 叶 斯 分 类 模型 进行 “提升 "(boosting) 是 在 不 改变 独立 性 假设 的 前 提 下 提高 
分 类 性 能 的 一 种 方法 。 提 升 方法 的 主要 思想 是 从 训练 实例 中 学 习 一 系列 的 分 类 器 。 每 一 
个 分 类 器 根据 前 一 个 分 类 器 错误 分 类 的 实例 ,对 训练 实例 的 权重 进行 修正 ,再 学 习 新 的 分 
类 器 。 例 如 ,学 习 得 到 分 类 器 KH 后 ,增加 了 由 KH 导致 分 类 错误 的 训练 实例 的 权 值 ,并 
且 通 过 重新 对 训练 实例 计算 权 值 ,再 学 习 下 一 个 分 类 器 KH 十 1。 这 个 过 程 重复 次 ,从 
这 个 系列 的 分 类 器 中 可 以 综合 得 出 最 终 的 分 类 器 。 

提升 算法 实现 了 对 分 类 问题 的 处 理 , 算 法 描述 如 下 。 

Begin 

Input: N 个 训练 实例 : D={(Czl,cl),…,Czxcx)} 以 及 待 分 类 实例 ,由 于 包括 N 个 
训练 实例 上 的 分 布 D : w,w 为 训练 实例 的 权 向 量 。 

T: 训练 重复 次 数 (或 轮 数 ) 


家 
Output: h(x) = arg max 2 (om) i = c) (6-18) 
站 | 


其 中 Fo) 是 实例 函数 , 当 w= 工 时 To) 王 1, 否 则 ITCw) 王 0。 
步 又: 
初始 化 训练 实例 的 权 向 量 ,W, 二 1/N,i€ (1,*…,N) 
For t=1 toT 
给 定 权 值 WL 得 到 一 个 假设 五” :X->C 估计 假设 五 ”的 总 体 误差 ， 


N 
ev = DwpICe FN)) (6-19) 
i=1 


则 计算 8?==e®/(1 一 e(?))， 
然后 计算 下 一 轮 样 本 的 权 值 : 
wD 一 tp (po KET 0) (6-20) 
规范 化 wt"*? ,使 其 总 和 为 
End for 
假设 每 一 个 分 类 器 都 是 有 用 的 , 则 e” 二 0. 5。 也 就 是 说 ,在 每 一 次 分 类 的 结果 中 , 正 
确 分 类 的 样本 个 数 始 终 大 于 错误 分 类 的 样本 个 数 。 可 以 看 出 ,此 时 8” 一 1, 那么 当 对 某 个 
训练 实例 xi 分 类 结果 不 正确 时 ,实例 函数 I(w) 二 0, 导 致 wf*? 增加 ,因此 满足 了 提升 的 
思想 。 上 述 提升 朴素 贝 叶 斯 分 类 器 的 时 间 复 杂 度 是 0(Tnf) ,其 中 f 是 每 个 样本 的 属性 的 
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个 数 。 在 一 般 情况 下 ,提升 后 的 分 类 性 能 有 了 和 较 大 的 提高 ,但 是 这 种 提升 方法 也 存在 不 
足 : 一 是 不 能 捕捉 属性 间 的 相关 性 ,也 就 是 说 没有 突破 条 件 独立 性 假设 的 限制 ;二 是 当 训 
练 集中 存在 噪音 数据 时 ,提升 方法 会 把 噪音 数据 当成 有 用 的 信息 通过 权 值 而 放大 ,从 而 降 
低 提 升 的 性 能 。 


6.3.3 基于 特征 相关 的 改进 加 权 朴 素 贝 叶 斯 分 类 

朴素 贝 叶 斯 文本 分 类 方法 是 基于 特征 项 间 独 立 的 假设 ,但 是 这 与 实际 情况 不 一 定 相 
符 ,为 此 研究 出 一 种 加 权 朴 素 贝 叶 斯 算法 ,对 后 验 概 率 计 算 中 的 每 个 条 件 概 率 项 进行 加 
权 , 并 且 对 不 同 的 特征 项 提供 不 同 的 加 权 值 ,从 而 使 得 特征 项 之 间 是 不 独立 的 ,它们 对 类 
别 的 重要 程度 是 不 一 样 的 。 基 于 特征 相关 的 改进 加 权 朴 素 贝 叶 斯 算法 ,在 传统 * 词 频 - 逆 
文档 频率 ”TF-IDF) 权 重 的 基础 上 ,考虑 到 类 内 和 类 间 分 布 ,同时 根据 特征 项 之 间 的 相关 
程度 ,对 它们 的 权重 进行 调整 ,突出 相关 性 比较 大 的 特征 项 权重 ,从 而 提高 了 加 权 朴 素 贝 
叶 斯 的 分 类 能 力 。 

加 权 朴 素 贝 叶 斯 文本 分 类 。 朴 素 贝 叶 斯 分 类 方法 认为 所 有 条 件 属性 对 决策 属性 的 分 
类 重要 性 是 一 致 的 (权重 均 为 1) ,这 种 方式 使 得 匈 余 的 ,与 分 类 无 关 的 、 相 互 影 响 的 以 及 
被 噪声 污染 的 特征 和 其 他 特征 具有 相同 的 地 位 ,并 使 得 分 类 的 正确 性 降低 ,实际 上 ,有 些 
因素 对 分 类 影响 大 一 些 , 而 另外 的 要 小 一 些 。 基 于 此 提出 将 各 种 特征 加 权 算 法 与 朴素 由 
叶 斯 分 类 器 相 结 合 ,对 不 同 的 特征 根据 其 分 类 重要 性 赋予 不 同 的 权 值 ,使 朴素 贝 叶 斯 扩展 
为 加 权 朴 素 贝 叶 斯 以 提高 分 类 器 的 性 能 。 加 权 朴 素 贝 叶 斯 模型 大 多 为 


C(x) = arg Da [| Pe | cOW ;= (6-21) 
Cec 
其 中 Wj- 是 特征 项 4; 在 类 别 cx 中 的 权重 ,权重 越 大 ,该 特征 项 对 分 类 的 影响 越 大 。 
特征 权重 的 计算 方式 有 很 多 种 ,比如 布尔 权重 、 词 频 权重 、TF-IDF 权重 等 。 而 TF- 
IDF 权重 应 用 最 广泛 ,因为 它 将 词 频 和 逆 文 档 频率 结合 使 用 ,克服 了 其 他 权重 计算 的 缺 
点 ,TF-IDF 计算 的 归 一 化 公式 如 : 


Ws 


TF(1;) X IDF(1;) 


2 TF) XIDFCD 02 


IDF(Ci) = log (2+L) 
其 中 TF(4;) 是 特征 项 1; 的 词 频 ,IDF(i;) 是 道 文档 频率 ,在 公式 中 ,L 的 取 值 通过 实验 
来 确定 。N 为 文档 集 的 总 文档 数 ,n; 为 出 现 特征 项 1; 的 文档 数 。IDF 算法 的 核心 思想 
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是 ,在 大 多 数 文档 中 都 出 现 的 特征 项 不 如 只 在 一 小 部 分 文档 中 出 现 的 特征 项 重要 。IDF 
算法 能 够 弱化 一 些 在 大 多 数 文档 中 都 出 现 的 高 频 特征 项 的 重要 程度 ,同时 增强 一 些 在 小 
部 分 文档 中 出 现 的 低频 特征 项 的 重要 程度 。 


6.4 贝 努 利文 本 分 类 模型 


另外 一 种 文本 分 类 模型 方法 是 多 元 贝 努 利 模 型 (multivariate Bernoulli model) 或 者 直接 
称 为 贝 努 利 模型 (Bernoulli model) 。 它 等 价 于 二 值 独立 模型 ,对 于 词汇 表 中 的 每 个 词 项 都 对 
应 一 个 二 值 变量 ,1 和 0 分 别 表示 词 项 在 文档 中 出 现 和 不 出 现 。 图 6-2 给 出 了 基于 贝 努 利 模 
型 的 NB 分 类 器 的 训练 和 测试 算法 。 贝 努 利 模型 和 多 项 式 模型 具有 一 样 的 时 间 复 杂 度 。 


TRAINBERNOULLINB(C, D) 

1. 上 了 一 EXTRACTVOCABULARY(D) 

2.N — COUNTDOCS(D) 

3. foreachcEC 

4. do N. 一 COUNTDOCSINCLASS(D,c) 

5 prior[c] 一 NA/N 

6 foreachtEV 

7. doN,— COUNTDOCSINCLASSCONTAININGTERMI(D, c, 1) 
8. condprob[ll[c] ~— (N+1) (N+ 2) 

9. return 太 prior, condprob 
APPLYBERNOULLINB(C, V, prior, conprob, d) 
1. 太一 EXTRACTTERMSFROMDOC(P d) 

2. foreachcEC 

3. do score[c] 一 log prior[c] 

4 for each trEV 

二 doifreV, 

6. then score[c]+=log condprob[s][c] 

7 else score[c]+=log(1—condprob[:][c]) 

8. return argmax,ec score[c] 


图 6-2 基于 贝 努 利 模型 的 NB 算法 的 训练 及 分 类 过 程 


不 同 的 生成 模型 也 意味 着 不 同 的 参数 估计 策略 和 分 类 规则 。 贝 努 利 模型 中 P41c) 利 
用 类 文档 中 包含 : 的 文档 数 的 比率 来 计算 。 而 与 之 形成 鲜明 对 比 的 是 ,多 项 式 模型 中 计 
算 的 是 :出 现 的 次 数 占 类 * 文档 中 所 有 词 条 数目 的 比率 。 当 对 测试 文档 进行 分 类 时 , 贝 努 
利 模型 只 考虑 词 项 的 出 现 或 不 出 现 ( 即 二 值 ) ,并 不 考虑 出 现 的 次 数 ,而 多 项 式 模型 中 则 要 
考虑 出 现 次 数 。 这 样 做 的 结果 是 , 当 对 长 文档 进行 分 类 时 ,采用 贝 努 利 模型 往往 会 犯 很 多 
错误 。 比 如 ,可 能 会 因为 China 在 文档 中 一 次 出 现 而 将 整 本 书 归 于 China 类 。 两 种 模型 
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(多 项 式 模型 与 贝 努 利 模型 ) 对 于 未 出 现 词 项 在 分 类 中 的 使 用 也 不 相同 。 未 出 现 的 词 项 在 
多 项 式 模型 中 并 不 影响 分 类 效果 ,但 是 在 贝 努 利 模 型 中 计算 P(c|d) 时 要 以 一 个 因子 来 参 
与 计算 ,其 主要 原因 是 , 贝 努 利 模型 对 词 项 的 未 出 现 也 要 显 式 建 模 。 

例如 ,对 于 表 6-1 中 的 例子 采用 贝 努 利 模 型 进行 计算 ,对 于 先 验 概率 ,我 们 同 多 项 式 


模型 中 一 样 估计 , 即 P(ec)==3/4,P=1/4。 


表 6-1 用 于 参数 估算 的 文本 词 项 数据 


- 档 中 的 尊 “二 Cpbins 当 ? 
文本 集 文档 ID 文档 中 的 词 项 C=China 类 ? 
1 Chinese Beijing Chinese Yes 
2 Chinese Chinese Shanghai Yes 
训练 集 
3 Chinese Macao Yes 
4 Tokyo Japan Chinese no 
测试 集 5 Chinese Chinese Chinese Tokyo Japan 和 
条 件 概率 为 


P(Chinese | c) = (3 十 1)/(3 十 2) = 4/5; 
PJapan | c) = P(Tokyo | c) = (0 十 1D)/(3 十 2) = 1/5; 


忆 (Beijing | c) = P(Macao | c) = PCShanghai | c) = (1 十 1)/(3 十 2) = 2/5; 


P(Chinese | ec) = (1 十 1)/(1 十 2) = 2/3; 
Poapan | ec) = P(Tokyo | c) = (1 十 DG 十 2) = 2/3; 
PlBeijing | ec) = P(Macao | c) = P(Shanghai | c) = (0 十 1)/(L 十 2) = 1/3。 
这 个 问题 中 有 三 篇 文档 词 项 属于 c 类 ,1 篇 文档 属于 非 c 类 ,另外 由 于 对 每 个 词 项 都 
只 考虑 出 现 与 不 出 现 两 种 情形 ,因此 公式 (6-17) 中 的 常数 B 为 2。 因 此 ,测试 文档 分 别 属 
于 两 个 类 别 的 得 分 为 
Pee | 忆 (c) .PCChinese | c) 。 Pdapan | c)。 PCTokyo | 
. (1 一 PCBeijing | c)) .。(1 一 PCShanghai | c)) . (1 一 PCOMacao | c)) 
一 3/4。.4/5 .1/5.1/5.。(1 一 2/5) 。(1 一 2/5)(1 一 2/5) 
x 0.005 
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类 似 地 有 


Ple | ds) ccl/4.2/3。2/3.。2/3。(1 一 1/3) 。 (1 一 1/3)(1 一 1/3) ~ 0.022 

因此 ,根据 上 述 结果 ,分 类 器 最 终 会 将 测试 文档 归 为 非 c 类 。 当 只 关注 词 项 出 现 与 否 
而 不 考虑 词 项 频率 时 ,Japan 和 Tokyo 对 于 ec 来 说 是 正 向 标志 特征 (2/3 之 1/5), 而 
Chinese 属于 c 类 和 非 c 类 的 条 件 概率 的 差异 还 不 足以 影响 分 类 的 结果 。 


6.5 多项式 文本 分 类 模型 与 贝 努 利文 本 分 类 模型 的 性 质 比较 


多 项 式 模型 是 : P(d lc) 王 已 (人 ,二 )|c), 贝 努 利 模型 为 ; P(d|c)= 
忆 ((el，…，ei 人 
一 个 M 维 的 布尔 向 ,表示 每 个 词 项 在 文档 d 中 存在 与 否 。 

解决 文本 分 类 问题 的 一 个 关键 步 允 是 选择 文 冰 的 表示 方法 ,而 (siuy 和 

《er,"… ,ei，,"…,em) 正 是 两 种 不 同 的 文档 表示 方法 。 在 第 一 种 表示 方法 中 ,文档 空间 X 是 

所 有 词 项 序列 的 集合 ,也 可 以 说 是 所 有 词 条 序列 的 集合 。 为 了 减少 参数 的 数目 ,下 面 引入 
朴素 贝 叶 斯 的 条 件 独立 性 假设 , 即 给 定 类 别 时 ,假设 属性 值 之 间 是 相互 独立 的 : 

多 项 式 模型 Pd |c) = Ps)|1co= [| PC = 和 lc (6-23) 


1<h<m 


贝 努力 模型 ”Pl(d | c) = Pl((ei,*…,em) | c) = I P(U;= ei|o) (6-24) 


上 式 中 引入 了 两 类 随机 变量 X 和 Ui, 这 样 在 两 个 不 同 的 文本 生成 中 ,模型 就 更 清 
晰 。X 是 文档 在 位 置 & 上 的 随机 变量 ,P(X 二 tc) 表 示 的 是 一 篇 c 类 文档 中 词 项 1 出 现 
在 位 置 A 上 的 概率 。 随 机 变量 U; 对 应 词 项 i, 当 词 项 在 文档 中 不 出 现时 取 0, 出 现时 取 1。 
P(U; 二 1|c) 表 示 的 是 4; 出 现在 c 类 文档 中 的 概率 ,这 时 可 以 是 在 任意 位 置 上 出 现 
多 次 。 

例如 图 6-3 与 图 6-4 所 示 ,对 五 个 词 项 属性 (对 应 多 项 式 模型 ) 和 六 个 二 值 属 性 (对 应 
贝 努 利 模型 ) ,China 类 对 应 都 有 一 个 概率 值 。 一 篇 China 类 文档 中 包含 Taipei 的 事实 并 
不 会 增加 或 者 减少 该 文档 包含 Beijing 的 可 能 性 。 

在 检索 文档 分 类 实践 当中 ,文本 数据 上 的 条 件 独立 假设 并 不 成 立 , 词 项 之 间 存 在 条 件 
依赖 。 但 是 可 以 看 到 ,尽管 采用 了 条 件 独 立 性 假设 ,NB 模型 也 表现 出 很 好 的 性 能 。 即 使 
是 采用 条 件 独立 性 假设 ,但 假如 在 文档 中 每 个 位 置 k 上 的 概率 分 布 不 同 , 则 对 于 多 项 式 模 
型 来 说 仍然 具有 太 多 的 参数 需要 估计 。 词 项 在 文档 中 的 出 现 位 置 本 身 并 不 包含 任何 对 分 
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图 6-3 多 项 式 贝 叶 斯 文本 分 类 实例 


图 6-4 贝 努 利文 本 分 类 实例 


类 有 用 的 信息 。 尽 管 China sues Japan 和 Japan sues China 不 同 , 但 是 China 是 在 文档 中 
第 一 个 位 置 还 是 在 第 三 个 位 置 出 现 对 于 多 项 式 分 类 来 说 毫 无 分 别 , 这 是 因为 多 项 式 分 类 
中 对 每 个 词 项 都 是 独立 看 待 的 ,条 件 独 立 性 假设 对 上 述 处 理 方法 提供 了 有 效 支 持 。 

另 一 方面 ,如 果 假 设 在 不 同位 置 人 上 词 项 分 布 不 同 的 话 ,那么 就 要 估计 每 个 & 的 一 系 
列 参数 。 比 如 ,bean 出 现在 coffee 类 文档 的 第 一 个 位 置 和 出 现在 其 第 二 个 位 置 的 概率 是 
不 同 的 ,其 他 位 置 可 以 依次 类 推 ,这 会 再 次 导致 数据 估计 中 的 稀疏 性 问题 。 

在 多 项 式 模型 中 ,首先 以 概率 P(c) 来 选择 一 个 类 别 C=c, 其 中 C 是 一 个 随机 变量 ， 
然后 根据 模型 生成 一 篇 文档 。 接 着 ,对 于 文档 的 za 个 位 置 ,在 每 个 位 置 & 上 以 概率 
P(X 二 41c) 生 成 词 项 4。 并 且 对 于 给 定 的 c, 每 个 XX; 的 分 布 是 一 样 的 。 在 图 6-3 所 示 
的 例子 中 ,给 出 了 单 句 文档 Beijing and Taipei join WTO 的 生成 过 程 ,其 中 (i ,ts,l3,44， 
ts)=(Beijing,and, Taipei,join, WTO). 

对 于 一 个 完全 确定 的 文档 生成 模型 而 言 ,还 需要 对 PCna|c) 这 个 长 度 分 布 进行 定义 。 
如 果 没 有 这 个 分 布 , 那 么 该 多 项 式 分 布 就 是 一 个 词 条 的 生成 模型 而 不 是 一 个 文档 的 生成 
模型 。 

在 贝 努 利 模型 (如 图 6-4 所 示 ) 文 档 的 生成 过 程 中 ,首先 以 概率 P(c) 来 选择 一 个 类 别 
C==c, 然 后 对 词典 中 的 每 个 词 项 1;(1 志 i 过 MD) 都 产生 一 个 对 应 的 二 值 变量 e;。 在 图 6-3 的 
例子 中 ,仍然 以 单 句 文档 Beijing and Taipei join WTO 为 例 ,说 明了 (ei ,ez yesyetveiyes) 一 
《0,1,0,1,1,1) 的 生成 过 程 ( 其 and 被 看 成 停 用 词 )。 下 面 用 表 6-2 说 明 两 个 模型 之 间 的 
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比较 结果 ,其 中 包括 计算 公式 和 决策 规则 的 比较 。 
表 6-2 多 项 式 模型 和 贝 努 利 模型 的 比较 


比较 项 多 项 式 模型 贝 努 利 模型 
事件 模型 词 条 生成 模型 文档 生成 模型 
随机 变量 久 =1, 当 且 仅 当 z 出 现在 给 定位 置 U, 二 1, 当 且 仅 当 t 出 现在 文档 中 
文档 表示 d=(t1 0 tes ta ) ot EV d=(e1 ,ei eM) ,ei E {0,1} 
参数 估计 P(X=i|e) EU;=elo) 
决策 规则 : 最 大 化 | Po) [PCX 一 “19 Po = ,ev PU =e1o 
词 项 多 次 出 现 考虑 不 考虑 
文档 长 度 能 够 处 理 更 长 文档 最 好 处 理 短 文档 
特征 数目 能 够 处 理 更 多 特征 特征 数目 较 少 效果 更 好 
词 项 the 的 估计 P(X=thelc)~0. 05 PU | OA1.0 


6.6 文本 分 类 特征 选择 


6.6.1 文本 分 类 特征 选择 的 作用 

在 文本 分 类 中 ,特征 项 应 该 具有 如 下 特性 : 特征 项 要 能 明确 标识 文本 信息 内 容 ;特征 
项 具有 将 目标 文本 与 其 他 文本 进行 区 分 的 能 力 ; 特 征 项 的 个 数 不 能 太 多 , 即 维度 不 能 太 
多 ,和 否则 会 耗费 大 量 的 计算 资源 ;特征 项 分 离 要 比较 容易 实现 。 

如 果 把 文档 信息 中 所 有 的 词 都 作为 特征 项 ,那么 特征 向 量 的 维 数 将 过 于 巨大 ,从 而 导 
致 计算 量 巨大 ,在 这 样 的 情况 下 ,要 完成 文本 信息 自动 分 类 几乎 是 不 可 能 的 。 特 征 选择 的 
任务 就 是 在 不 改变 文本 核心 内 容 信息 的 前 提 下 , 尽 可 能 地 减少 要 处 理 的 特征 项 数量 ,从 而 
降低 向 量 空间 维 数 ,进行 简化 计算 以 提高 文本 处 理 的 速度 和 效率 。 朴 素 贝 叶 斯 分 类 模型 
是 建立 在 属性 之 间 条 件 独立 性 假设 之 上 ,因此 特征 选择 的 好 坏 与 否 对 分 类 精度 有 较 大 
影响 。 

特征 选择 (feature selection) 是 从 训练 集合 出 现 的 词 项 中 选 出 一 部 分 子 集 的 过 程 。 在 
文本 分 类 过 程 也 仅仅 使 用 这 个 子 集 作 为 特征 。 特 征 选择 是 文本 信息 模式 识别 的 关键 问题 
之 一 ,特征 选择 结果 的 好 坏 直 接 影 响 着 分 类 器 的 分 类 精度 和 泛 化 性 能 。 下 面 首 先 分 析 特 
征 选择 方法 的 框架 ,然后 从 信息 检索 和 搜索 策略 与 评价 准则 两 个 角度 对 特征 选择 方法 进 
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行 分 析 。 

特征 选择 有 两 个 主要 目的 : 第 一 ,通过 减少 文本 内 容 有 效 的 词汇 空间 来 提高 分 类 器 
训练 和 应 用 的 效率 ,这 对 于 除 NB 之 外 的 训练 开销 较 大 的 分 类 器 来 说 尤为 重要 。 第 二 , 特 
征 选择 能 够 去 除 噪 音 数 据 特征 ,从 而 提高 分 类 的 精度 。 


6.6.2 特征 选择 的 方法 
特征 选择 的 基本 框架 见 图 6-5 。 
原始 数据 | 


于 | 特征 子玉 | 


子 集 评价 


否 是 
你 止 准则 3 结果 验证 


图 6-5 特征 选择 的 基本 框架 


从 特征 选择 的 基本 框架 可 以 看 出 ,特征 选择 方法 有 四 个 基本 步骤 : 候选 特征 子 集 的 
生成 (自动 搜索 策略 ) 、 评 价 准则 、 停 止 准 则 和 验证 方法 。 经 典 特征 选择 定义 为 从 N 个 特 
征集 合 中 选 出 M 个 特征 的 子 集 ,并 满足 条 件 M<N。 它 包括 特征 提取 和 特征 选择 两 个 方 
面 : 特征 提取 广义 上 指 的 是 一 种 变换 ,将 处 于 高 维 空间 的 样本 通过 映射 或 变换 的 方式 转 
换 到 低 维 空间 ,达到 降 维 的 目的 ;特征 选择 指 从 一 组 特征 中 去 除 宛 余 或 不 相关 的 特征 来 降 
维 。 二 者 常 结合 使 用 ,如 先 通过 变换 将 高 维特 征 空间 映射 到 低 维特 征 空间 ,然后 再 去 除 宛 
余 的 和 不 相关 的 特征 来 进一步 降低 维 数 。 

特征 选择 主要 用 于 排除 确定 的 特征 空间 中 那些 被 认为 无 关 的 或 是 关联 性 不 大 的 特 
性 ,于 是 经 常会 使 用 特征 独立 性 假设 以 简化 特征 选择 ,以 达到 计算 时 间 和 提高 计算 质量 的 
折 中 目的 。 因 此 ,目前 在 对 文本 特征 空间 所 采取 的 特征 选择 算法 一 般 是 构造 一 个 评价 函 
数 ,对 特征 集中 的 每 个 特征 进行 独立 的 评估 。 这 样 每 个 特征 都 获得 一 个 评估 分 ,然后 对 所 
有 的 特征 按照 其 评估 分 的 大 小 进行 排序 ,选取 预定 数目 的 最 佳 特征 作为 结果 的 特征 子 集 。 
所 以 ,选取 多 少 个 最 佳 特性 以 及 采用 什么 评价 函数 ,都 需要 针对 某 一 个 具体 的 问题 通过 试 
验 来 决定 。 

对 于 基本 的 特征 选择 算法 ,简单 地 说 ,给 定 类 别 ,对 词汇 表 中 的 每 个 词 项 ,我 们 计算 
效用 指标 A(4,c) ,然后 从 中 选择 & 个 具有 最 高 值 的 词 项 作为 最 后 的 特征 ,其 他 的 词 项 则 在 
分 类 中 都 被 忽略 。 特 征 选 择 算法 有 三 种 不 同 的 效用 指标 : 互信 息 A(1,c) 二 1(U,,C.)、 
入 统计 量 A(,c) 二 x? (4,0) 及 词 项 频率 Ali,c) 一 N(1,c)。 
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6.6.3 特征 选择 方法 类 型 

特征 选择 需要 解决 两 个 问题 : 一 是 确定 选择 算法 ,在 允许 的 时 间 内 ,以 可 以 忍受 的 代 
价 找 出 最 小 的 .最 能 描述 类 别 的 特征 组 合 ;二 是 确定 评价 标准 ,衡量 特征 组 合 是否 最 优 , 得 
到 特征 获取 操作 的 停止 条 件 。 因 此 ,一 般 分 两 步 进行 特征 获取 : 先 产生 特征 子 集 , 然 后 对 
子 集 进行 评价 ,如 果 满 足 停止 条 件 , 则 操作 完毕 ,否则 重复 前 述 两 步 直 到 条 件 满足 为 止 。 

第 一 种 ,按照 特征 子 集 的 形成 方式 ,特征 获取 方法 可 分 为 穷 举 法 .启发 法 和 随机 法 三 
类 。 启 发 式 方法 为 一 种 近似 算法 ,具有 很 强 的 主观 倾向 。 实 际 应 用 中 通过 采用 期 望 的 人 
工 机 器 调度 规则 ,重复 迭代 产生 递增 的 特征 子 集 。 特 征 个 数 为 N 时 ,复杂 度 一 般 小 于 或 
者 等 于 O(2”)。 这 种 方法 实现 过 程 比 较 简单 而 且 快 速 ,在 实际 中 应 用 非常 广泛 ,如 向 前 
(向 后 ) 选 择 、 决 策 树 法 、Relief 方法 及 其 改进 方法 等 。 但 是 它 不 能 保证 结果 最 优 ,一 般 能 
够 获得 近似 于 最 优 解 。 见 图 6-6。 


特征 选择 


| 


启发 方法 随机 方法 | 


尘 融 吵 册 
苦 玛 其 芋 


图 6-6 特征 选择 算法 分 类 


随机 方法 是 一 种 相对 较 新 的 方法 , 细 分 为 完全 随机 方法 和 概率 随机 方法 两 种 。 完 全 
随机 方法 是 指 “ 纯 "随机 产生 子 集 ,概率 随机 是 指 子 集 的 产生 依照 给 定 的 概率 进行 。 虽 然 
计算 复杂 度 仍 为 O(2X) ,但 通过 设置 最 大 和 迭代 次 数 可 以 限制 复杂 度 小 于 O(2X)。 常 用 的 
方法 有 LVF(las vegas filter,LVF) .遗传 算法 .模拟 退火 算法 及 其 改进 方法 等 。 这 类 方法 
需要 进行 参数 设置 ,并 且 参 数值 决定 是 否 能 得 到 最 优 解 。 

总 的 来 说 ,上 述 三 类 中 穷 举 法 能 保证 最 优 ,但 耗 时 并 且 计 算 复杂 度 很 高 ,后 两 者 以 性 
能 为 代价 换取 简单 .快速 实现 ,但 不 能 保证 最 优 。 实 际 应 用 中 为 了 折 中 性 能 和 代价 之 间 的 
矛盾 , 几 种 方法 常 结合 起 来 。 

第 二 种 是 按照 特征 评价 标准 分 类 ,特征 选择 可 以 看 做 是 一 个 优化 问题 ,其 关键 是 建立 
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一 种 评价 标准 来 区 分 哪些 特征 组 合 有 助 于 分 类 ,哪些 特征 组 合 存在 元 余 性 .部 分 相关 或 者 
完全 无 关 。 不 同 的 评价 函数 可 能 会 给 出 不 同 的 结果 。 根 据 评价 函数 与 分 类 器 的 关系 , 特 
征 选择 方法 分 成 筛选 器 和 封装 器 两 种 。 其 中 ,筛选 器 的 评价 函数 与 分 类 器 无 关 , 而 封装 器 
采用 分 类 器 的 错误 概率 作为 评价 函数 。 其 中 ,筛选 器 的 评价 函数 又 可 以 细 分 为 距离 测度 、 
信息 测度 .相关 性 测度 和 一 致 性 测度 。 特 征 获取 的 最 终 目的 在 于 使 分 类 器 的 错误 概率 最 
小 ,因此 最 直观 的 方式 是 采用 分 类 器 错误 概率 作为 评价 标准 , 即 选择 使 分 类 器 的 错误 概率 
最 小 的 特征 或 者 特征 组 合 。 


6.6.4 文本 互信 息 选 择 

互信 息 (mutual information,MIJ) 在 计算 机 模型 分 析 中 用 来 度量 两 个 对 象 之 间 的 相互 
关系 ,是 常用 的 特征 选择 方法 之 一 ,在 过 滤 问 题 中 用 于 度量 特征 对 于 主题 的 区 分 度 。 

互信 息 本 来 是 信息 论 中 的 一 个 概念 ,用 于 表示 信息 之 间 的 关系 ,是 两 个 随机 变量 统计 
相关 性 的 测度 ,使 用 互信 息 理论 进行 特征 抽取 是 基于 如 下 假设 : 在 某 个 特定 类 别 出 现 频 
率 高 ,但 在 其 他 类 别 出 现 频率 比较 低 的 词 条 与 该 类 的 互信 息 比 较 大 。 通 常用 互信 息 作 为 
特征 词 和 类 别 之 间 的 测度 ,如 果 特 征 词 属于 该 类 ,它们 的 互信 息 量 最 大 。 由 于 该 方法 不 需 
要 对 特征 词 和 类 别 之 间 关 系 的 性 质 做 任何 假设 ,因此 非常 适合 于 文本 分 类 的 特征 和 类 别 
的 判别 工作 。 

互信 息 在 统计 语言 模型 中 被 广泛 采用 ,MI 越 大 ,相似 程度 越 大 。 如 果 A 表示 包含 词 
条 :上 且 属 于 类 别 c 的 文档 频数 ,B 包含 1 但 是 不 属于 c 的 文档 频数 ,C 表示 属于 c 但 是 不 包 
含 上 的 文档 频数 ,N 表示 文档 总 数 , 则 可 以 用 下 面 的 式 子 来 近似 表示 项 1 和 类 c 之 间 的 互 
信息 : 


AxXN 


Maslog: (CAFC XATF BY 人 
也 可 以 形式 化 定义 如 下 : 
办 (zyc _ p22/e) AxN _ 
I 一 log Gp ™ 8 pe) ™ logtATFC CAT BD C020) 
则 词 条 : 的 平均 值 与 最 大 值 可 以 近似 表示 为 

MI lt) = >)P(c)MIGLc) (0327) 

MI (1) = max{ MI ,ci))} (6-28) 

i=1 


显然 当 上 独立 于 c 时 ,MI(1,c) 王 0, 在 应 用 时 通常 取 平 均值 或 最 大 值 。 
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从 上 式 可 以 得 出 : 如 果 上 和 < 无 关 , 则 PCz/c) 三 0,T(Gc) 值 就 为 零 。 如 果 上 和。 的 相 
关 性 很 高 ,并 不 一 定 Kx,c) 的 值 就 很 高 ,这 与 词 条 : 在 总 文档 数 中 出 现 的 频数 有 关 。 在 公 
示 (6-26) 中 , 当 特 征 P(z/ce) 的 值 相 等 时 ,由 于 稀有 词 比 普 通 词 的 出 现 概率 小 ,从 而 稀有 词 
比 普通 词 的 分 值 要 高 ,因此 概率 相差 太 大 的 文本 特征 互信 息 量 不 具有 可 比 性 ,这 也 就 使 互 
信息 在 信息 检索 应 用 中 具有 一 定 的 局 限 性 。 


6.6.5 x 统计 量 特征 选择 

另 一 个 常用 的 特征 选择 方法 是 x 统计 量 。 在 统计 学 中 ,x? 统计 量 常常 用 于 检测 两 个 事 
件 的 独立 性 。 两 个 事件 A 和 B 独立 ,是 指 两 个 事件 A、B 的 概率 满足 P(AB)==P(A)P(B) 
或 者 P(A1B)=P(A) 且 P(B1A) 二 P(B)。 在 特征 选择 中 ,两 个 事件 分 别 是 指 词 项 的 出 
现 和 类 别 的 出 现 。 

x 统计 量 (x?-statistic) 的 概念 来 自 列 联 表 检 验 , 它 可 以 用 来 衡量 特征 1 和 类 别 c 之 
间 的 统计 相关 性 强度 ,信息 检索 对 于 六 感 兴趣 的 是 那些 与 各 个 类 有 强 关联 的 检索 词 
项 。 则 

Nx (AD— CB) 

(A++C) x (B+D) x A+B) x C+D) 

其 中 A 表示 属于 类 别 c 并 且 包 含 特征 t 的 训练 文档 个 数 ;B 表示 不 属于 类 别 c 且 包 含 
特征 1 的 训练 文档 个 数 ;C 表示 属于 类 别 c 且 不 包含 特征 1 的 训练 文档 个 数 ;D 表示 不 属 
于 类 别 c 且 不 包含 特征 4 的 训练 文档 个 数 ;NN 为 训练 文档 总 数 ;n 为 文档 类 别 总 数 。 如 果 
t 和 c 之 间 是 独立 的 , 则 统计 量 x? 的 值 将 为 0。 对 于 训练 文本 集中 的 每 一 个 类 ,计算 出 每 
个 项 与 该 类 之 间 的 统计 量 x* 的 值 。 根 据 这 些 值 可 以 求 出 以 下 两 种 x* 的 平均 值 或 最 
大 值 : 


(6-29) 


pa ea, 


好 一 >) PCcD)X2(tci) (6-30) 
i=l 


Xe) 一 max{x: Csc2)) (6-31) 
在 一 些 研究 中 ,x* 统计 量 是 一 种 非常 有 效 的 维 数 约 简 方法 。X 统计 方法 的 主要 思想 
是 : 四 对 训练 文本 进行 分 词 与 索引 ; @ 在 索引 的 基础 上 用 统计 公式 计算 每 个 词 对 应 每 个 
类 的 统计 值 ; 四 选择 最 大 值 作 为 该 词 的 值 ; @ 找 出 值 最 大 的 N 个 词 作为 特征 项 。 
从 统计 方法 的 主要 思想 可 以 看 出 : 要 用 统计 方法 计算 出 特征 上 和 类 别 c 之 间 的 相关 
性 ,从 而 得 出 该 词 对 类 别 的 贡献 程度 大 小 ,知道 该 特征 上 是 否 可 以 代表 这 个 类 别 。 
首先 假设 1 和 < 之 间 符 合 具有 一 阶 自由 度 的 x? 分 布 ,再 采用 六 统计 方法 度量 词 
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条 上 和 文档 类 别 c 之 间 的 相关 程度 。 如 果 词 条 :对 于 某 类 的 六 统计 值 越 高 , 它 与 该 类 
之 间 的 相关 性 越 大 ,携带 的 类 别 信 息 就 越 多 ,独立 性 也 越 小, 则 4 对 于 c 的 x 值 ,由 下 
式 计算 : 

NGCAD 一 CB) 
(4 二 C)CB 十 D)(A 十 B)CC 十 D) 


因为 N,A 十 C,B 十 DD 均 是 常数 ,只 需要 关注 特征 词 对 某 个 类 别 的 x* 值 的 大 小 顺序 ， 
并 不 关心 具体 的 值 ,因此 把 它们 从 式 (6-32) 中 去 掉 是 完全 可 以 的 , 故 实际 计算 的 时 候 上 式 
可 以 简化 为 : 


pM (6-32) 


(AD = BC)’ 
(A BC DY 


特征 4 与 类 别 c 相互 独立 时 , 光 (4,c) 二 0, 此 时 特征 值 不 包含 任何 与 类 别 。 有 关 的 鉴 
别 信息 。 特 征 1 与 类 别 c 的 统计 相关 性 越 强 ,x?(4,c) 的 值 就 越 大 ,此 时 特征 /包含 的 与 类 
别 c 有 关 的 鉴别 信息 就 越 多 。 

和 统计 方法 也 有 不 足 之 处 。 首 先 ,只 考虑 了 特征 在 所 有 文档 出 现 的 文档 频数 ,没有 
考虑 特征 在 某 一 文档 中 出 现 的 频率 ,因此 对 文档 频率 低 的 特征 词 不 可 靠 。 其 次 ,特征 词 在 
其 他 类 出 现 频率 比较 高 ,在 指定 类 出 现 频率 比较 低 时 ,在 传统 的 x? 统计 方法 中 ,仍然 会 将 
这 些 特征 词 作为 该 类 的 特征 项 。 


她 (4c) = (6-33) 


6. 6.6 基于 频率 的 特征 选择 方法 

基于 频率 的 特征 选择 方法 也 就 是 基于 文档 频率 的 选择 方法 。 一 个 特征 词 条 4 的 文档 
频率 (document frequency) 是 指 在 训练 文档 库 中 出 现 特征 词 条 “4 的 文档 数 。 文 档 频率 特 
征 选择 方法 的 基本 思想 是 :首先 设 定 最 小 和 最 大 文档 频率 阔 值 ,然后 计算 每 个 特征 词 条 的 
文档 频率 ,如 果 该 特征 词 条 的 文档 频率 大 于 最 大 文本 频率 阔 值 或 小 于 最 小 文档 频率 阔 值 ， 
则 删除 该 特征 词 条 ,否则 保留 。 文 档 频率 特征 选择 方法 是 基于 如 下 假设 : 即 如 果 特 征 词 条 
的 文档 频率 过 小 , 则 表示 该 特征 词 条 是 低频 词 ,没有 代表 性 。 相 反 , 如 果 特 征 词 条 文档 频 
率 过 大 , 则 表示 该 特征 词 条 没有 区 分 度 ,这 样 的 特征 词 条 对 分 类 都 没有 多 大 的 贡献 ,所 以 
将 它们 删除 并 不 会 影响 分 类 效果 。 

特征 词 条 文档 频率 用 DF 表示 ,计算 方法 为 

DFC ,。) 二 类 别 ci 中 包含 特征 词 条 4 的 文档 数 
内 类 别 c 的 文档 总 数 

基于 频率 的 选择 方法 是 一 种 简单 高 效 的 特征 选择 方法 ,相对 于 训练 文本 集 规模 的 线 

性 计算 复杂 度 ,能 够 应 用 于 大 规模 训练 文本 库 的 统计 。 但 是 文档 频率 特征 选择 方法 具有 


(6-34) 
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如 下 缺点 : 首先 文档 频率 特征 选择 方法 在 对 特征 词 条 进行 选择 操作 时 ,认为 文档 频率 过 
小 的 特征 词 条 是 低频 词 (认为 它们 不 含有 或 含有 很 少 的 类 别 信息 ), 所 以 将 它们 删除 并 不 
会 影响 分 类 器 的 分 类 效果 ,而 实际 上 这 一 假设 是 不 全 面 的 ,存在 文档 频率 低 却 能 很 好 地 反 
映 类 别 信息 的 特征 词 条 ,文档 频率 特征 选择 方法 将 该 类 特征 词 条 过 滤 掉 ,影响 了 分 类 器 的 
分 类 效果 ;其 次 文档 频率 特征 选择 方法 只 考虑 了 特征 词 条 是 否 在 文档 中 出 现 ,忽略 了 特征 
词 条 在 文档 中 出 现 的 频数 这 一 重要 信息 。 


6.7 文本 的 索引 构建 


信息 检索 从 检索 对 象 的 内 容 与 特征 提取 方面 进行 划分 ,可 分 为 两 大 类 , 即 基于 文 
本 的 检索 和 基于 内 容 的 信息 检索 。 文 本 信息 检索 (例如 关键 词 检索 ) 是 目前 最 成 熟 、 
实践 应 用 最 成 功 最 广泛 的 检索 应 用 技术 。 第 5 章 内 容 所 涉及 的 各 种 信息 检索 一 般 数 
学 原理 也 主要 是 回答 基于 文本 的 信息 检索 技术 ,而 对 于 图 形 图 像 .视频 与 音频 等 多 媒 
体 信息 的 基于 内 容 检 索 ( 例 如 图 像 的 色彩 .纹理 .轮廓 等 信息 内 容 ) 将 在 后 面 的 章节 中 
进行 阐述 和 学 习 。 

文档 是 按照 一 定 结构 组 织 的 相关 信息 记录 的 集合 ,文档 是 构建 各 种 文本 型 检索 数据 
库 的 基础 和 查询 的 处 理 实体 。 从 组 织 形式 上 划分 ,文档 可 以 分 为 顺 排 文 档 (sequential 
file) 和 倒 排 文档 (inverted file) 两 种 。 顺 排 文 档 就 是 把 记录 按照 一 定 顺 序 完整 地 组 织 起 
来 ,在 很 多 数据 库 中 被 称 为 主 文档 (或 主 文件 )。 例 如 ,物品 数据 库 依据 物品 记录 号 顺序 进 
行 建立 .学生 数据 库 依据 学 号 顺序 建立 等 。 倒 排 文 档 就 是 把 顺 排 文档 中 具有 检索 属性 的 
项 目 信息 抽取 出 来 ,重新 排列 组 织 成 新 的 数据 文档 ,在 很 多 数据 库 中 被 称 为 索引 文档 (或 
辅助 文件 ) 。 例 如 ,将 学 生 数据 库 中 的 成 绩 数据 项 抽取 出 来 ,依据 学 生成 绩 由 高 到 低 重新 
建立 新 的 索引 文档 。 索 引文 档 是 检索 系统 中 真正 具有 检索 意义 的 文档 ,在 检索 系统 中 由 
主 文档 生成 了 数据 量 庞大 的 各 类 索引 文档 。 


6.7.1 基于 块 的 排序 索引 方法 

首先 扫描 一 篇 文档 (例如 一 篇 学 位 论文 或 一 则 新 闻 等 ) 集 合 得 到 其 中 所 有 具有 检索 意 
义 的 词 项 ,然后 构造 “ 词 项 一 文档 ID" 数 据 集 ;其 次 ,依据 词 项 为 索引 文档 集 的 主键 和 文档 
ID 为 次 键 进行 排序 ;最 后 将 每 个 词 项 的 文档 ID 组 织 成 为 倒 排 记录 表 , 并 计算 词 项 频率 或 
文档 频率 的 统计 量 。 对 于 小 规模 文档 集 来 说 ,上 述 过 程 可 以 在 内 存 中 完成 (例如 自动 词语 
切 分 与 自动 摘要 技术 ) ,这 里 的 排序 索引 指 的 是 大 规模 文档 集 条 件 下 的 基于 块 的 排序 索引 


168 /大 学 生 信息 检索 素养 教程 


方法 。 


为 了 索引 构建 效率 更 高 ,将 词 项 用 其 ID 代替 ,每 个 词 项 的 ID 是 唯一 的 序列 编号 。 扫 
描 原 始 文档 集 时 ,可 以 采用 两 遍 扫描 方法 ,第 一 遍 扫描 得 到 词 项 表 , 第 二 遍 扫描 构建 倒 排 


索引 。 


例如 我 们 采用 “桂林 电子 科技 大 学 网 站 


图 6-7 所 示 。 


2016-03-31 
校园 快讯 2016-03-31 
ts 2016-03-29 
2016-03-29 
2016-03-29 
2016-03-28 
2016-03-28 
2016-03-27 
2016-03-27 
2016-03-27 
2016-03-27 
2016-03-23 
2016-03-23 
2016-03-22 
2016-03-22 


学 校 召 开 2 工 系统 安全 稳定 ] 全 
中 国运 筹 学 会 九 届 六 次 常务 理事 会 在 我 校 吾 开 


学 校 召 开 2016 年 国际 合作 与 交流 工作 会 议 (图 ) 

2016 年 我 校 新 增 3 个 本 科 专 业 

校 领导 赴 自 汉 区 科技 厅 、 发 改 委 调研 (图 ) 

我 校 2012 级 学 生 陈 文 蜂 芝 获 国际 起 模 大 赛 景 佳 民族 服装 奖 
【综合 改革 】 校 领导 带 队 开展 学 生 工作 模式 改革 考题 调研 (图 ) 

第 九 届 广 西 大 学 生 电子 设计 竞赛 总 结 又 技术 交流 大 会 在 北海 校区 举 . 

我 校 4 位 教师 荣获 第 十 三 届 广 西 青年 科技 奖 

中 电 二 十 二 所 吴 健 所 长 一 行 来 校 考 察 交流 (图 ) 

校 党 要 中 心 组 专题 学 习 毛泽东 同志 《党 要 会 工作 方法 》 

贵州 理工 学 院 曾 刊 书记 一 行 到 校 考察 交流 图 ) 

学 校 召 开关 心 下 一 代 工 作 委员 会 2016 年 工作 会 议 (图 ) 

学 校 2016 年 高 水 平 运 动员 招生 考试 工作 会 议 召 开 (图 ) 
【综合 改革 】 学 校 召 开本 科 考 业 结构 调整 工作 布置 会 (图 ) 


新 闻 模 块 ”为 样本 组 成 文档 集 。 本 文档 集 
数据 库 包 含 2013 年 4 月 至 2016 年 4 月 共 三 年 时 间 跨 度 的 桂林 电子 科技 大 学 各 类 新 闻 内 
容 , 本 文档 集 数据 库 大 约 30GB 的 数据 量 (新 闻 内 容 包 括 图 像 图 表 数 据 , 本 章 内 容 只 针对 
文本 的 索引 构建 进行 前 述 ) 。 文 档 总 量 近 13 万 篇 ,内 容 覆盖 桂林 电子 科技 大 学 的 教学 、 科 
研 ` 党 政 .招生 、` 就 业 ` 学 生 工作 、 财 务 \ 人 事 、 国 资 \ 后 勤 . 基 建 等 方面 的 新 闻 信 息 , 实 例 图 如 
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图 6-7 桂林 电子 科技 大 学 网 站 一 一 新 闻 模 块 检索 实例 图 


在 统计 时 进行 了 数据 的 取 整 变换 ( 即 舍 人 操作 ) ,实际 原始 数据 的 总 文档 数 136 833 篇 ， 
每 篇 新 闻 文档 的 索引 词 项 平均 为 33 个 ,全 部 不 同 词 项 个 数 总 和 为 236 693 个 (不 包括 空格 和 
标点 符号 ) ,每 个 词 项 的 数据 量 平均 为 2. 3B, 基 于 倒 排 索引 构建 的 记录 数 为 83 996 533 个 ( 约 
8 千 万 个 )。 每 个 词 项 ID 与 文档 ID 的 数据 各 占 2.7B, 因 此 存储 所 有 的 词 项 ID 与 文档 ID 


需要 2GB 的 存储 空间 。 见 表 6-3 。 
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表 6-3 桂林 电子 科技 大 学 一 一 新 闻 文档 集 统计 数据 表 


符号 省 - 文 统计 值 
N 文档 总 量 13 万 篇 
L 每 篇 文档 的 平均 词 项 数量 33 个 

词 项 总 数 23: 万 

每 个 词 项 的 平均 字 节 数 ( 包 含 空格 与 标点 ) 2.7B 
每 个 词 项 的 平均 字 节 数 (不 包含 空格 与 标点 ) 1.9B 

每 个 词 项 的 平均 字 节 数 2. 3B 
于 倒 排 记录 总 数 8000 万 个 


目前 典型 的 数据 库 (例如 清华 同方 学 术 期 刊 数据 库 、 中 国 新 浪 网 的 新 闻 模 块 数据 等 ) 
(桂林 电子 科技 大 学 一 一 新 闻 内 容 模块 ?为 样本 组 成 文档 集 , 见 图 6-8) 
的 数据 量 要 大 得 多 ,即使 对 于 大 型 计算 机 来 讲 ,要 把 全 部 “ 词 项 -文档 ID" 集 都 存放 在 计算 
机 内 存 中 也 是 十 分 困难 的 事 。 如 果 生 成 的 索引 文件 调和 内 存 的 占用 空间 较 小 ,就 需要 进 
行 索引 压缩 算法 技术 。 对 于 大 多 数 文档 检索 数据 库 而 言 ,即使 经 过 压缩 后 的 倒 排 文档 记 
录 全 部 加 载 到 计算 机 内 存 中 ,也 是 不 可 能 的 。 


往往 比 我 们 这 里 举例 


3 月 27 晶 下午， 学 校 召 开 2016 年 国际 合作 与 文 流 工作 会 议 。 徐 华东 副 校长 出 席 会 议 ， 发 展 规划 
处 、 学 生 工作 处 以 及 各 学 院 学 生 工 作 负 责 人 、 分 管教 学 副 院 长 参加 会 议 。 会 议 由 国 合 处 处 长 赵 明 主 
持 - 


赵 明 在 会 上 传达 了 教育 部 2015 一 2017 年 留学 工作 行动 计划 及 广西 2016 一 2020 年 高 校 留学 工作 
规划 ， 介 绍 了 学 校 国际 合作 与 交流 处 关于 学 校 交 流 交 换 学 生 培 养 、 教 学 骨干 海外 培训 管理 骨干 海 
外 培训 等 工作 设想 及 推进 情况 ， 与 会 人 员 就 学 校 国际 合作 与 交流 工作 、 交 换 生 课程 对 接 、 学 分 互 


换 、 学 生 管理 等 操作 细节 问题 展开 了 充分 的 讨论 和 交流 。 


图 6-8 桂林 电子 科技 大 学 一 一 新 闻 内 容 文档 实例 


由 于 计算 机 内 存 空间 的 有 限 性 ,我 们 需要 使 用 基于 磁盘 的 外 部 排序 算法 ESA 
(external sorting algorithm) 。 该 算法 的 核心 是 : 在 索引 排序 时 ,尽量 减少 磁盘 寻 道 次 数 ， 
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因为 磁盘 顺序 读 取 数据 的 速度 要 比 随机 寻 道 速度 快 得 多 。 

外 部 排序 算法 ESA 的 主要 基础 思路 是 BSBI 算法 (blocked sort-based indexing 
algorithm), 即 基于 块 的 排序 算法 。BSBI 步骤 主要 有 四 步 。 

第 一 步 ,将 文档 集 分 割 成 多 个 大 小 相等 部 分 。 

第 二 步 ,将 每 个 部 分 的 “ 词 项 -文档 ID” 进 行 排序 。 

第 三 步 , 将 中 间 排 序 产 生 的 临时 结果 存放 在 磁盘 中 。 

第 四 步 , 将 全 部 中 间 文 档 合并 为 最 终 的 统一 索引 文档 。 

该 算法 将 文档 解析 为 “ 词 项 -文档 ID" 集 ,并 在 内 存 中 一 直 处 理 ,直到 累积 满 为 一 个 固 
定 大 小 空间 为 止 , 选 择 合适 的 块 算法 ( 见 图 6-9, 该 算法 将 每 个 块 的 倒 排 索引 存 和 人 文件 户 ， 
…，,/, 中 ,最 后 合并 为 fmmersea ) ,使 得 文档 块 能 够 方便 加 载 到 内 存 中 并 在 内 存 进行 快速 排 
序 ,排序 后 的 块 置换 为 倒 排 索引 文档 再 写 入 磁盘 。 


BSBI construction() 
N00 
While (all document have not been processed) 
Do N 一 N+1 
Block 一 Parse next block 
BSBI -Invert (block) 
Write block to disk(block, £,) 
Merge blocks (ffi; fnerged) 


图 6-9 基于 块 的 排序 索引 算法 


建立 倒 排 索引 的 过 程 包括 : 对 “ 词 项 -文档 ID” 进 行 排序 ; @ 将 具有 同一 词 项 ID 的 
所 有 文档 ID 存放 到 倒 排 记录 表 中 ,其 中 每 条 倒 排 记录 仅仅 是 一 个 文档 的 1D; 四 将 各 个 数 
据 块 索引 合并 为 一 个 索引 文档 ; 图 将 块 的 倒 排 索引 文档 写 入 磁盘 中 。 将 该 算法 应 用 于 
“桂林 电子 科技 大 学 一 一 新 闻 ” 数 据 库 , 并 假设 内 存 每 次 能 够 加 载 20 万 个 “ 词 项 ID- 文 档 
ID”, 那 么 算法 产生 10 个 索引 数据 块 ,每 个 数据 块 文档 集 都 是 倒 排 索引 的 一 部 分 。 

依据 图 6-9 的 算法 将 待 合并 的 倒 排 记录 表 ( 两 个 数据 块 ) 从 磁盘 读 人 内存, 然后 在 内 
存 中 合并 后 写 人 磁盘 ( 见 图 6-10) 。 说 明 : 在 这 里 为 了 便于 理解 ,使 用 了 词 项 本 身 , 而 不 是 
其 ID。 

BSBI 算 法 的 复杂 度 主要 体现 在 时 间 复 杂 度 与 空间 复杂 度 上 ,在 时 间 复 杂 度 方面 主要 
受 排序 词 项 数目 大 小 、 文 档 数据 块 分 析 时 间 与 索引 文档 的 合并 时 间 的 影响 。 


第 6 章 文本 分 类 与 文本 索引 构建 / 171 


待 合并 的 倒 排 记 录 表 1 待 合并 的 倒 排 记录 表 2 待 台 并 的 倒 排 记录 表 3 


教师 dl ,dy 教学 质量 di, d; 教师 ddd 
教学 质量 di, 必 , ds 就 业 ds, de, do 教学 质量 di, 必 , ds, dk, 四 
学 生 di,d; 学 生 dss do 就 业 4;, ds, dio 


学 校 领导 必 , dh, dio 招生 ds, ads 学 生 di, ds, ds, do 
学 校 领导 4;, dr dio 


招生 ds, 


图 6-10 ”基于 块 的 排序 方法 合并 示意 图 


6.7.2 基于 内 存单 次 扫描 的 索引 构建 方法 

基于 块 的 排序 索引 方法 具有 很 好 的 扩展 性 ,但 是 需要 一 种 将 词 项 映射 为 与 之 相对 应 
的 ID 的 数据 结构 。 对 于 大 规模 的 文档 集 来 讲 , 该 数据 结构 会 变 得 很 大 以 至 于 计算 机 内 存 
难以 存放 ,一 种 更 加 有 效 的 扩展 性 算法 SPIMI(single-pass in-memory indexing, 基 于 内 存 
单 次 扫描 的 索引 算法 ) 则 能 够 满足 这 一 要 求 。SPIMI 将 每 个 数据 块 的 词典 (由 固定 文档 生 
成 的 词 项 所 组 成 的 有 序 文档 ) 写 入 磁盘 ,对 于 下 一 个 块 则 重新 采用 新 的 词典 。 只 要 硬盘 空 
间 允 许 ,SPIMI 算法 能 够 构建 足够 大 的 文档 索引 数据 库 。 

图 6-11 中 省 略 了 文档 分 析 和 文档 转换 成 “ 词 项 -文档 ID” 数 据 流 ,只 需要 循环 调用 
SPIMI-Invert 函数 将 全 部 文档 处 理 完 毕 为 止 。 在 处 理 词 项 -文档 ID 时 ,如 果 词 项 是 第 一 
次 出 现 , 那 么 将 其 加 入 词典 (由 检索 词 项 构成 的 数据 表 ), 同 时 建立 一 个 新 的 倒 排 记 录 表 ， 
如 果 该 词 项 不 是 第 一 次 出 现 , 则 直接 返回 其 倒 排 记录 表 。 

SPIMI 算法 与 BSBI 算 法 的 一 个 区 别 点 在 于 ,后 者 直接 在 倒 排 记录 表 中 增加 定位 符 
项 , 且 开 始 就 需要 处 理 形成 所 有 的 “ 词 项 -文档 ID? 并 进行 排序 ;而 前 者 是 通过 判定 循环 动 
态 增 加 倒 排 记录 表 的 , 倒 排 记录 表 的 动态 处 理 的 优势 如 下 。 

(1) 由 于 不 需要 排序 (sorting) 操 作 ,数据 块 的 处 理 速度 大 大 增加 。 

(2) 因为 保留 了 倒 排 记 录 表 对 词 项 的 归属 关系 ,能 够 大 大 节省 内 存 , 不 需要 连续 保存 
ID 文档 。 

因此 ,每 次 单独 的 SPIMI-Invert 函数 调用 就 能 够 处 理 很 大 的 数据 块 , 整 个 文档 的 索 
引 构建 效率 也 有 明显 提升 。 因 为 事先 并 不 清楚 每 个 词 项 的 倒 排 记录 表 的 大 小 ,算法 一 


172 /大 学 生 信 息 检索 素养 教程 


SPIMI-Invert(token-stream) 
Output-file=Newfile 
Dictionary=newhash 
While(free memory available) 
Do token 一 next (token-stream) 
Ifterm (token) EE dictionary 
then posting list= addtodictionary (dictionary, term (token)) 
elese posting list= get postinglist (dictionary, term (token)) 
If full(posting list) 
Then posting_list= doublepostinglist(dictionary, term (token)) 
Add to postinglist(posting_list, docID(token)) 
Stored_terms 一 sortterms(dictionary) 
Writeblocktodisk(sort_terms, dictionary, output_file) 
Return output_file 


图 6-11 SPIMI 算 法 的 块 倒 排 索引 生成 算法 


开始 会 分 配 一 个 较 小 的 倒 排 记录 空间 ,如 果 该 空间 存放 数据 满 后 ,就 会 通过 判定 增加 新 
的 数据 块 空间 。 当 然 SPIMI 的 最 后 一 步 是 将 多 个 块 索引 文档 合并 为 一 个 完整 的 索引 
文档 。 


6.7.3 顺 排 文档 索引 

顺 排 文 档 索 引 的 主要 思想 是 将 文档 中 的 每 一 条 记录 去 分 别 匹配 用 户 的 信息 检索 提问 
集合 ,文档 处 理 完 后 ,将 提问 命中 结果 归并 后 给 用 户 。 常 用 的 顺 排 文档 索引 方法 主要 有 表 
展开 法 、 人 逻辑 树 法 等 。 

1. 表 展 开 法 索引 

表 展 开 法 是 由 日 本 学 者 菊池 人 敏 典 1968 年 最 早 提出 的 ,又 称 " 菊 池 敏 典 算法 ”。 该 方 
法 在 信息 检索 的 早期 得 到 广泛 应 用 ,目前 主要 用 于 面向 定 题 服务 的 检索 系统 。 表 展开 
法 旨 在 将 代表 用 户 的 逻辑 提问 式 转 换 成 检索 表 的 形式 ,该 检索 表 规 定 了 表 内 容 走向 和 
检索 命中 与 否 的 判断 ,检索 时 根据 表 内 容 走 向 及 其 他 相关 信息 来 判断 每 条 记录 检索 是 
否 命中 。 

1) 表 展 开 的 含义 

将 经 典 布尔 逻辑 检索 的 逻辑 提问 表达 式 转换 为 逻辑 检索 表 , 每 个 检索 词 的 检索 组 配 
关系 要 求 能 够 用 表 进行 精确 映射 ,检索 结果 的 记录 是 否 最 终 命中 检索 需求 要 能 准确 反映 
出 来 , 表 展 开 检 索 能 够 满足 这 些 检 索要 求 。 例 如 布尔 逻辑 表达 式 (A 十 B) x (C 十 D) 的 展 
开 表 如 表 6-4 所 示 。 
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表 6-4 (A 十 B)* (C 十 D) 的 展开 检索 基础 表 


地 址 检索 词 条 件 满足 指向 条 件 非 满 足 指向 
1 A 3 2 
2 B 3 落选 
3 [ 命中 4 
4 D 命中 落选 


表 中 说 明了 四 个 检索 词 A、B、C、D 在 地 址 、 条 件 满足 指向 、 条 件 非 满足 指向 等 方面 的 
映射 关系 。 

2) 生成 展开 表 

把 逻辑 检索 提问 式 生 成 展开 表 是 一 个 较 复杂 的 过 程 ,需要 考虑 到 检索 词 、 检 索 运 算 
符 ,改变 运算 次 序 等 内 容 , 并 生成 可 供 检索 匹配 的 表格 形式 。 整 个 生成 过 程 分 为 两 部 分 : 
前 处 理 和 后 处 理 。 

(1) 前 处 理 。 前 处 理 的 目的 是 逐个 检查 逻辑 提问 式 中 的 字符 ,并 从 上 至 下 填写 表格 。 
在 填写 表格 的 过 程 中 对 不 同类 型 的 表 处 理 对 象 进行 分 别处 理 。 

若是 检索 词 , 则 将 之 存 人 展开 表 内 的 检索 词 栏 ,并 记 下 该 词 在 表 中 的 地 址 。 

若是 运算 符 , 则 分 别处 理 如 下 。 

@ 加 号 运算 符 “ 十 ”。 因 为 两 个 检索 词 进行 有 “十 ”运算 ,在 前 一 个 词 不 满足 检索 条 件 
的 情况 下 ,还 可 以 查看 后 一 词 。 当 遇 “ 十 ”时 应 在 前 一 词 的 “条 件 不 满足 指向 ” 栏 中 填 入 指 
向 后 一 词 的 地 址 。 

@ 友好 运算 符 " * ”。 如 果 两 词 进行 " * ”运算 ,在 检索 过 程 中 必须 均 满 足 条 件 才能 认 
为 符合 检索 要 求 。 当 遇 到 “x* ”符号 时 , 须 在 左边 检索 词 所 在 行 的 “条 件 满足 指向 ” 栏 中 十 
人 指向 后 一 词 的 地 址 。 

若是 括号 , 则 分 别处 理 如 下 。 

@ 左 括号 “(”。 将 “(” 后 的 检索 词 所 在 行 的 “级 位 ” 栏 值 加 1, 同时 有 多 级 左 括号 时 ,级 
位 值 连续 多 次 加 1。 

@ 右 括号 ")”。 将 “)” 的 紧 前 一 个 检索 词 所 在 行 的 “级 位 ? 栏 值 减 1, 同 时 有 多 级 右 括 
号 时 ,级 位 值 连续 多 次 减 1。 

第 一 个 检索 词 的 级 位 初 值 为 0。 在 第 一 个 检索 词 以 后 每 一 个 检索 词 的 初始 级 位 由 上 
一 检索 词 复制 得 到 ,然后 再 根据 条 件 相 减 。 若 检索 词 的 第 一 个 字符 是 左 括号 , 则 将 第 一 个 
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检索 词 做 加 运算 。 

若 遇 括号 结束 ,在 最 后 一 个 检索 词 所 在 行 的 “条 件 满足 指向 ? 栏 设 为 “命中 ”, “条 件 不 
满足 指向 ” 栏 中 设 为 “不 命中 ”。 

这 些 前 处 理工 作 至 此 结束 ,展开 表 中 除 第 二 、 第 三 栏 中 有 空白 外 ,其 余 各 栏 均 已 填 好 ， 

这 些 空白 处 有 待 于 后 续 处 理 来 完成 填补 。 

(2) 后 处 理 。 后 处 理 的 主要 任务 是 按照 要 求 设 置 满 整个 表 的 空白 单元 ,设置 表 内 容 
的 依据 是 表 中 “级 位 ” 栏 的 前 后 级 位 值 , 填 表 的 顺序 是 从 下 向 上 ,直至 表 的 顶部 ,从 而 得 到 
一 个 完整 的 提问 展开 表 。 通 常 我 们 称 表 中 指针 所 指 行为 “当前 行 ”", 指 针 移 动 到 “当前 行 ” 
之 前 所 指向 的 行为 上 一 行 。 

车 当前 行 的 级 位 值 大 于 上 一 行 的 级 位 值 ,表示 上 一 个 的 检索 词 后 有 一 个 右 插 号 
(A 十 B 十 C0) 对 应 的 检索 词 级 位 分 别 为 1,1,0,; 因 此 ,针对 不 同 的 情况 应 做 不 同 处 理 。 

车 当前 行 的 "条件 不 满足 指向 ” 栏 为 空 , 则 表示 当前 行 和 上 一 行 的 检索 词 之 间 为 “x*” 
运算 ,应 把 上 一 行 不 满足 栏 内 容 复 制 到 当前 行 的 不 满足 栏 。 

车 当前 行 的 "条件 满 足 指 向 ” 栏 为 空 , 则 表示 当前 行 和 上 一 行 的 检索 词 之 间 为 “十 ” 运 
算 ,需要 把 上 一 行 满足 栏 内 容 复制 到 当前 行 的 满足 栏 。 

经 过 上 述 两 个 处 理 过 程 ,我 们 就 可 以 得 到 一 张 完整 的 提问 展开 表 。 将 若干 提问 式 的 
展开 表 汇 集 起 来 ,构成 用 户 提问 文档 集合 ,依据 用 户 提 问 文档 就 可 以 方便 地 进行 顺 排 文档 
的 检索 。 

3) 表 展 开 法 的 检索 应 用 描述 

表 展 开 法 通常 用 于 批 处 理 检索 系统 中 ,生成 的 展开 表 为 若干 逻辑 提问 式 的 集合 ,这 个 
集合 形成 了 展开 表 提 问 文档 ,并 作为 检索 的 提问 库 , 专 用 于 以 后 的 批量 检索 和 定 题 服务 检 
索 。 检索 时 , 需 将 所 有 提问 展开 表 调 入 内 存 运行 以 提高 查询 匹配 速度 。 检 索 匹 配 时 ,每 从 
数据 库 中 读 取 一 条 记录 ,就 为 该 记录 生成 一 个 检索 标识 表 , 检 索 标 识 表 由 该 记录 的 可 检索 
项 组 成 ,然后 将 检索 标识 表 中 的 每 一 检索 项 去 匹配 展开 表 , 并 对 命中 的 检索 词 给 以 标记 。 
当 该 记录 标识 表 中 的 所 有 检索 项 查询 完毕 后 ,再 根据 每 一 展开 表 的 查询 情况 ,分 析 提 问 是 
否 命 中 。 对 于 命中 者 ,就 在 相应 的 提问 号 下 标注 记录 号 及 相关 信息 ,然后 再 取 下 一 条 记录 
进行 对 比 。 全 部 检索 匹配 完毕 后 ,才能 得 到 本 次 检索 的 最 终结 果 , 最 后 通过 提问 号 调 出 检 
索 结 果 中 各 自命 中 结果 的 记录 给 用 户 。 

2. 逻辑 树 索引 

人 逻辑 树 是 将 逻辑 提问 式 展开 成 树 形 结构 ( 称 主 逻 辑 树 ) ,运算 符 构 成 树 的 节点 ,检索 词 
被 视 为 树叶 ,所 有 检索 词 也 按照 有 限 自动 机 原理 构造 成 字符 树 ( 即 子 树 ) , 主 树 与 子 树 间 的 
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相关 元 素 用 指针 链接 。 检 索 时 ,采取 遍历 树 原则 , 先 用 文档 中 的 标 引 词 逐 字符 地 遍历 子 
树 , 当 遍历 到 树 的 一 个 端 头 (树叶 ) 时 ,依照 指针 标识 主 树 ,并 根据 遍历 树 方式 分 析 提 问 是 
否 命中 。 逮 辑 树 展开 法 包括 三 个 部 分 : 逻辑 提问 式 的 分 解 、 树 形 结构 的 生成 检索 实现 。 

1) 逻辑 提问 式 分 解 

逻辑 提问 式 分 解 的 目标 是 提供 可 直接 用 于 检索 实现 的 主 逻 辑 树 表 、 检 索 词 地 址 表 以 
及 检索 词 在 检索 式 中 的 位 置 表 。 这 些 表 在 检索 实践 中 分 别 发 挥 着 各 自 的 作用 。 

(1) 主 逻 辑 树 表 。 主 逻辑 树 表 是 逻辑 提问 式 的 一 种 树 形 表达 形式 , 它 用 层次 型 的 树 
形 结构 把 运算 符 .运算 项 关联 起 来 ,其 主要 内 容 包括 运 算 类 型 . 子 项 个 数 、 父 项 地 址 以 及 检 
索 处 理 登 记 栏 。 见 表 6-5 。 


表 6-5 主 逻 辑 树 表 结构 


运算 类 型 子 项 个 数 父 项 地 址 处 理 标识 检索 处 理 


= | 于 了 


运算 类 型 : 用 来 表示 逻辑 提问 式 中 的 运算 符 类 型 。 如 “十 ”“ x ”“ 一 ”等 ,每 个 运算 
符 必须 有 一 个 或 多 个 子 项 , 且 只 能 有 一 个 父 项 ,没有 父 项 的 节点 是 根 节点 。 子 项 个 数 指 该 
运算 符 直接 下 属 项 的 个 数 , 下 属 项 可 以 是 检索 词 , 也 可 以 是 运算 符 。 例 如 A 十 B 十 C 十 DD， 
该 运算 符 “ 十 "下 就 有 四 个 子 项 ,分 别 为 “A”、“B”、“C”“D”。 

父 项 地 址 : 指 本 项 的 直接 上 属 项 在 本 表 中 的 地 址 。 如 上 例 中 的 “A”“B”“C”“D” 都 
指向 同一 个 父 项 “十 ”。 

处 理 标 识 : 在 检索 过 程 中 填写 ,主要 用 于 记录 该 检索 项 或 逻辑 组 合 项 是 否 被 “满足 ”。 
一 般 情况 下 ,处 理 标识 在 检索 前 均 为 “0”, 当 在 检索 过 程 中 被 “命中 ”后 , 记 为 “1”, 表 示 该 项 
的 检索 过 程 已 经 完成 。 对 于 “一 ”运算 , 则 处 理 标识 栏 置 为 1 ,该 词 被 命中 后 被 置 为 “0”。 

检索 处 理 : 记录 该 项 在 检索 过 程 中 的 变化 情况 。 即 当 该 项 的 子 项 命中 后 ,对 该 项 进 
行 累计 处 理 , 当 该 项 的 检索 要 求 被 满足 后 ,就 在 "处理 ” 栏 置 1。 例 如 ,对 于 “ x "运算 , 当 其 
直接 下 属 子 项 初次 满足 检索 要 求 时 ,就 在 该 栏 加 1, 直到 该 栏 的 数字 与 它 的 子 项 个 数 相 等 
时 ,将 处 理 标 识 置 为 1; 若 为 “十 "运算, 则 当 其 任意 一 个 直接 下 属 子 项 初次 满足 检索 要 
求 时 ,处 理 标识 置 为 1; 对于" 一” 运算, 则 在 分 解 提 问 式 时 ,就 将 该 栏 置 为 1, 当 在 以 后 的 
记录 中 检索 到 该 检索 词 或 该 项 的 组 合 条 件 满 足 时 ,再 反 将 其 置 0, 表 示 该 项 * 非 ?运算 
满足 。 

在 检索 过 程 中 , 当 某 一 行 的 处 理 标 识 为 1 时 ,就 根据 该 行 的 “ 父 项 地 址 ? 值 遍 历 到 其 
“ 父 项 地 址 ” 行 ,进行 检索 处 理 , 这 样 反复 循环 , 当 树 根 处 (提问 式 的 逻辑 树 顶 端 ) 的 处 理 标 
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志 为 1 时 ,说 明 该 检索 提问 被 命中 。 

(2) 检索 词 地 址 表 。 检 索 词 地 址 表 是 主 逻 辑 树 表 与 子 表 的 联系 纽带 ,在 检索 中 当 一 
个 检索 词 命 中 以 后 ,通过 子 表 找 到 其 在 检索 词 地址 表 的 位 置 ,再 根据 该 表 中 记录 的 主 表 位 
置 进行 检索 处 理 。 该 表 由 两 个 字段 组 成 : 检索 登录 与 检索 词 在 主 表 中 的 位 置 。 见 表 6-6 。 

检索 登录 : 该 栏 的 作用 为 进行 检索 词 命中 与 否 的 登记 栏 ,该 栏 的 初始 值 为 0, 首 次 命 
中 后 记 为 1, 同 时 根据 其 在 主 表 中 的 位 置 定位 到 主 表 , 并 进行 检索 处 理 。 

主 表 位 置 : 该 词 在 主 逻 辑 树 表 中 的 位 置 , 该 位 置 建 立 了 主 逻 辑 树 表 和 子 表 的 连接 , 当 
表 中 的 检索 词 命中 后 ,可 以 通过 子 表 的 指针 在 该 表 中 找到 主 表 中 的 相关 位 置 。 

(3) 检索 词 位 置 表 。 检 索 词 位 置 表 是 在 逻辑 提问 式 转 换 成 逻辑 树 表 的 过 程 中 ,临时 
生成 的 一 个 中 间 处 理 过 程 表 ,该 表 还 将 作为 从 逻辑 提问 式 到 词 好 辑 树 子 表 的 桥梁 ,一 旦 子 
表 生 成 完毕 ,该 表 将 被 清除 , 见 表 6-7。 

表 6-6 检索 词 地 址 表 表 6-7 检索 词 位 置 表 
检索 登录 主 表 位 置 检索 词 种 类 起 始 位 置 终止 位 置 


— | | 6 


检索 词 种 类 : 用 于 区 别 检索 词 的 类 别 ( 如 作者 .关键 词 .标题 代码 等 )。 设 此 项 的 目 
的 在 于 区 别 检 索 对 象 ,提高 检索 效率 。 通 过 种 类 标识 分 别 构造 检索 词 巡 辑 树 表 , 使 得 在 检 
索 时 可 以 针对 不 同类 别 的 检索 词 去 匹配 不 同 的 逻辑 树 。 

起 始 位 置 : 主要 指 本 行 检 索 词 在 整个 逻辑 提问 式 中 的 起 始 位 置 ,以 便 在 构造 子 表 时 ， 
快速 准确 地 在 逻辑 提问 式 中 取 词 。 

终止 位 置 : 指 本 行 检索 词 在 整个 逻辑 提问 式 中 的 结束 位 置 ,目的 也 是 为 了 准确 取 词 。 

(4) 中 间 工 作 表 。 从 进行 逻辑 提问 式 到 逻辑 树 表 的 转换 过 程 中 ,由 于 涉及 一 些 中 间 
数据 ,这 些 数据 在 生成 逮 辑 树 时 需 多 次 使 用 ,因此 需要 建立 一 个 中 间 工 作 表 来 记录 这 些 中 
间 数 据 , 一 旦 主 逻 辑 树 生 成 完毕 ,该 中 间 工 作 表 即 可 以 清除 , 见 表 6-8。 

表 6-8 中 间 工 作 表 结构 


起 始 位 置 终止 位 置 父 项 地 址 辅助 信息 


ee 


起 始 位 置 : 由 于 逻辑 提问 式 的 分 解 是 逐 层 进行 的 ,每 一 层 可 能 有 若干 子 项 ,使 用 起 始 
位 置 来 表示 子 项 在 逻辑 提问 式 中 的 起 始 位 置 。 
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终止 位 置 : 记录 子 项 在 逻辑 提问 式 中 的 结束 位 管 。 

父 项 地 址 ; 本 项 的 父 项 在 逻辑 提问 式 中 的 地 址 。 

辅助 信息 为 分 解 该 子 项 时 提供 辅助 信息 。 如 本 项 的 父 项 为 何 种 运算 ,本 项 是 否 为 
括号 项 等 。 本 算法 规定 :“0” 表 示 该 子 项 的 前 后 端 分 别 为 左右 括号 ,“1” 表 示 父 项 为 “十 ”， 
“2" 表 示 父 项 为 * x ”,*3" 表 示 父 项 为 * 一 ”。 

(5) 主 迎 辑 树 表 的 生成 。 主 四 辑 树 表 的 生成 算法 是 采用 多 次 扫描 的 分 层 分 解构 千 
法 。 首 先 分 解 出 逻辑 式 中 最 外 层 * 十 "号 下 的 子 项 ,括号 内 的 项 暂 不 分 解 ; 其 次 扫描 已 分 解 
出 的 子 项 (在 最 外 层 没有 “十 "项 的 情况 下 对 整个 逻辑 式 进行 ) 中 的 “ * "号 的 运算 子 项 , 若 
该 子 项 为 括号 子 项 , 则 仍 分 解 "十 "号 子 项 ;最 后 分 解 "一 "号 子 项 。 

2) 馆 辑 树 法 检索 应 用 

让 辑 提 问 式 最 终 转 换 为 迎 辑 树 的 三 个 表 : 主 多 得 树 表 、 检 索 词 地 址 表 、 检 索 词 字符 树 
表 。 这 三 个 表 构 成 了 用 户 检索 提问 文档 ,整个 检索 也 主要 依赖 这 三 个 表 。 

实际 检索 过 程 为 : 从 文档 中 读 取 一 条 记录 ,将 记录 中 的 标 引 项 (主题 词 .责任 者 ,分 类 
号 等 可 供 检索 的 标识 项 ) 去 匹配 相关 的 检索 词 雇 辑 树 ,匹配 成 功 者 ,根据 检索 词 地 址 指针 
去 判断 检索 词 地 址 表 对 应 的 检索 登录 区 , 若 为 "1”, 表 明 该 词 已 命中 过 ,不 需 再 处 理 ; 若 为 
“0”, 则 将 该 项 管 为 ~1”, 同 时 根据 本 行 的 “ 主 表 位 告 "字段 去 修改 主 迎 辑 树 表 。 

主 迎 辑 树 表 的 检索 处 理 较为 复杂 ,因为 它 不 只 是 处 理 指针 指向 的 检索 词 项 ,而 且 要 遍 
历 到 它 的 父 项 进行 相关 的 处 理 和 判断 。 具 体 处 理 过 程 如 下 。 

在 主 迎 辑 树 表 中 该 词 的 "处理 标识 " 栏 中 填 上 *1”, 然 后 根据 父 项 地 址 的 指针 找到 父 项 
行 ,对 “检索 处 理 " 栏 做 加 *1" 运 算 , 再 查看 "处 理 标识 " 栏 。 若 为 1”, 表 示 该 子 项 已 做 过 向 
上 遍历 处 理 ,可 返回 进行 下 一 词 的 处 理 ; 若 为 "0”, 则 根据 * 运 算 种 类 ”做 相应 处 理 。 

若 为 “十 "运算 ,在 完成 标识 栏 管 “1”, 再 向 父 项 移动 。 

车 为 * "运算 ,比较 “检索 处 理 "与 " 子 项 个 数 "的 值 , 如 果 值 相等 , 则 在 完成 标识 栏 置 
“17” ,再 向 父 项 移动 ;如 果 值 不 相等 ,就 返回 进行 下 一 词 的 处 理 。 

若 为 "一 "运算 , 则 顺 着 父 项 进行 注销 处 理 。 

随 着 父 项 指针 移动 到 顶 行 时 ,车 该 行 的 处 理 标识 为 ~1”, 则 表示 该 记录 对 于 这 一 提问 
为 命中 文献 信息 ,并 将 提问 号 和 记录 号 写 人 命中 文档 。 为 了 减少 重复 查询 ,实际 应 用 时 对 
于 命中 提问 应 采取 屏蔽 手段 ,确保 该 提问 不 再 被 这 一 记录 访问 处 理 。 

与 其 他 顺 排 检索 方法 比较 ,该 算法 虽然 在 分 解 逻 辑 提问 式 ,但 是 在 扫描 次 数 方面 可 能 
多 于 其 他 算法 例如 表 展开 法 。 由 于 判断 次 数 减少 ,其 处 理 速度 反而 加 快 了 ;虽然 该 法 对 提 
问 式 的 处 理 需要 产生 三 个 表 , 但 它 的 处 理 是 一 次 性 的 ,不 像 展开 表 法 分 前 ,后 处 理 两 步 ; 更 
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为 重要 的 一 点 是 , 顺 排 文档 检索 对 提问 式 的 处 理 是 一 次 性 的 ,而 且 是 计算 机 后 台 处 理 的 ， 
即使 在 加 工 提问 式 过 程 中 耗费 了 一 些 时 间 资 源 , 但 检索 处 理 的 效率 仍然 较 高 。 


6.7.4 倒 排 文档 索引 

倒 排 文档 是 相对 于 顺 排 文档 而 言 的 ,是 将 顺 排 文 档 中 可 检索 的 信息 字段 项 ,例如 信息 
标题 .信息 发 布 者 .关键 词 . 分 类 号 等 信息 提取 出 来 , 按 一 定 规则 排序 , 归 类 相同 检索 项 字 
符 ( 例 如 系统 的 姓名 字符 ) ,并 把 在 顺 排 文档 中 相关 记录 的 记录 号 集合 赋予 其 后 ,以 保证 
通过 某 一 特征 词 能 够 快速 .方便 地 获取 相关 记录 信息 。 倒 排 文 档 方法 常常 又 称 为 倒 排 
索引 。 

倒 排 文档 的 组 成 特点 ,使 得 许多 数学 检索 模型 (如 布尔 模型 .集合 运算 等 ) 能 够 方便 地 
用 于 文本 信息 检索 实践 中 , 它 把 两 个 检索 词 的 逻辑 运算 转换 成 了 两 个 检索 词 之 间 的 记录 
号 集合 的 运算 。 目 前 最 常见 的 倒 排 文 档 检 索 为 逆 波 兰 展开 法 。 

1. 倒 排 文档 索引 的 建立 

为 了 提高 检索 效率 ,希望 把 整个 文档 集合 的 索引 都 存放 在 内 存 上 ,但 是 在 检索 实践 中 
这 是 不 可 行 的 ,因为 用 户 不 希望 把 大 部 分 计算 机 资源 都 用 于 查询 工作 ,而 且 一 个 几 百 
数据 量 的 文件 ,其 全 文 索引 的 全 部 数据 很 快 就 达到 几 个 GB 的 数据 量 。 因 此 ,对 于 索引 工 
作 而 言 ,更 经 济 的 思路 是 把 大 部 分 索引 文档 存放 在 磁盘 中 ,而 非 内 存 上 。 

倒 排 文档 的 组 成 元 素 主 要 包括 关键 字 ( 作 者 、 主 题词. 分 类 号 等 ) 目 长 (含有 该 关键 字 
记录 的 条 数 ) 与 记录 号 集合 (所 有 与 该 关键 字 有 关 的 记录 号 )。 倒 排 文 档 是 建立 在 顺 排 文 
档 ( 主 文档 ) 基 础 上 的 , 它 是 从 主 文档 中 提取 可 检索 字段 内 容 , 也 可 自动 从 标题 .文摘 或 全 
文中 自动 提取 关键 词 ,利用 所 得 到 的 这 些 属性 词 来 建立 倒 排 文档 。 

1) 倒 排 文档 的 结构 

倒 排 文档 可 视 为 主 文档 的 辅助 索引 , 它 从 不 同 的 角度 提供 了 对 主 文档 的 快速 查询 ,一 
般 来 说 ,不 同属 性 的 数据 构成 不 同 的 倒 排 索引 文档 。 比 如 学 术 期 刊 论文 在 数据 库 中 有 记 
录 号 、 作 者、 标题 .关键 词 等 属性 ,就 可 以 依据 作者 或 关键 词 建立 索引 文档 。 

2) 倒 排 文 档 的 建立 

由 顺 排 文 档 构造 倒 排 文档 需要 经 过 抽 词 .排序 .归并 和 组 织 等 过 程 ,具体 实现 步 又 
如 下 。 

第 一 ,选择 需要 构建 索引 的 作者 .关键 词 等 字段 属性 ,抽出 其 中 的 内 容 , 并 在 其 后 附 上 
其 记录 号 。 

第 二 ,对 抽出 的 内 容 进 行 排序 ,便于 归并 相同 内 容 。 
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第 三 ,对 相同 内 容 进 行 归并 ,把 合并 后 的 内 容 放 入 倒 排 文档 的 关键 词 . 作 者 等 主要 
字段 中 ,统计 每 一 数据 的 频次 作为 目 长 ,把 每 一 内 容 后 的 记录 号 顺序 放 在 记录 号 集合 
字段 。 

例如 ,有 一 些 学 者 关于 信息 管理 方面 的 学 术 期 刊 论文 及 其 基本 属性 见 表 6-9 。 

表 6-9 学 术 论 文 文档 及 其 部 分 属性 举例 


记录 号 篇 名 作者 标 引 词 

Ll 知识 管理 与 企业 管理 信息 系统 建设 A | 知识 管理 ,管理 信息 系统 ,企业 信息 化 
2 论 知识 链 与 知识 管理 B | 知识 管理 ,知识 链 , 学 习 型 组 织 , 知 识 创新 
8 刍议 知识 管理 及 其 体系 框架 C | 知识 管理 ,知识 创新 ,知识 共享 

4 知识 管理 的 组 织 基础 A | 知识 管理 ,学 习 型 组 织 

5 论 技术 创新 的 知识 空间 C | 技术 创新 ,知识 空间 ,知识 创新 

6 建立 企业 竞争 性 的 信息 结构 A | 企业 信息 化 ,信息 结构 ,竞争 情报 

外 知识 管理 在 企业 竞争 情报 研究 中 的 应 用 | B | 知识 管理 ,竞争 情报 ,知识 创新 

8 管理 信息 系统 中 的 文化 行为 研究 B | 管理 信息 系统 ,企业 文化 

9 企业 竞争 情报 管理 系统 的 构建 研究 C | 管理 信息 系统 ,竞争 情报 

10 “| 企业 知识 管理 主体 研究 C | 知识 管理 ,企业 文化 ,管理 创新 


基于 表 6-9 可 以 建立 相应 的 关键 词 和 作者 倒 排 文档 , 见 表 6-10 和 表 6-11。 
表 6-10 关键 词 索 引 


标 引 词 目 长 标 引 词 目 长 记录 号 集合 
管理 创新 1 学 习 型 组 织 2 2;4 
管理 信息 系统 3 知识 创新 4 2;3;5;7 
技术 创新 1 知识 共享 1 加 
竞争 情报 3 知识 管理 6 1;2;3;4;7;10 
企业 文化 2 知识 空间 1 
企业 信息 化 2 知识 链 1 2 
信息 结构 1 
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表 6-11 作者 索引 
作者 目 长 作者 目 长 记录 号 集合 
A 3 区 4 3;5;9;10 


在 建立 倒 排 文档 的 过 程 中 需要 注意 以 下 两 点 。 

第 一 , 倒 排 文档 建立 过 程 是 批 处 理 的 过 程 ,在 实际 的 信息 检索 数据 库 建 设 中 是 不 断 追 
加 检索 数据 的 过 程 ,因此 , 倒 排 文档 的 建立 应 具有 及 时 更 新 的 功能 。 首 先 ,从 增加 的 记录 
中 取出 倒 排 索引 的 字段 内 容 ; 然后 查询 倒 排 索引 。 如 果 命中 , 则 将 该 记录 的 目 长 加 1, 并 
将 增加 记录 的 记录 号 追加 进 倒 排 文档 的 记录 号 集合 字段 。 若 没有 命中 , 则 将 该 字段 内 容 
以 及 记录 号 添加 到 倒 排 文 档 之 中 ,并 将 目 长 置 1。 

第 二 ,由 于 每 一 个 关键 字 所 对 应 的 记录 数 相差 很 大 ,因此 对 于 只 能 处 理 定 长 字段 的 数 
据 库 或 文件 系统 , 需 建立 溢出 文档 来 解决 不 定 长 问题 。 

2. 逻辑 提问 式 的 转换 

人 逻辑 提问 式 类 似 于 算术 表达 式 , 对 于 信息 检索 而 言 , 这 种 表达 式 并 不 是 最 优 和 最 简洁 
的 形式 ,需要 进行 必要 的 转换 。1929 年 波兰 的 逻辑 学 家 卢 卡 西 维 兹 提出 了 将 运算 符 放 在 
运算 项 后 面 的 逻辑 表达 式 , 又 称 “ 逆 波兰 表达 式 ”。 采 用 这 种 人 逻辑 表达 式 是 非常 方便 检索 运 
算 的 ,日 本 的 福 岛 先生 最 早 将 逆 波 兰 表 达 式 应 用 于 信息 检索 工作 , 故 又 称 为 “ 福 岛 方法 ”。 

道 波兰 表达 式 是 一 种 没有 括号 ,并 严格 遵循 “从 左 到 右 ” 运 算 的 后 缀 式 表达 方法 。 例 
如 ,人 逻辑 提问 式 “A x (B 十 C) 十 D” 转 换 为 逆 波 兰 表达 式 就 为 *ABC 十 * D 十 ”, 这 样 的 表达 
式 应 用 于 检索 将 使 之 更 加 方便 。 因 此 ,实现 福 岛 方法 首先 要 进行 提问 式 的 转换 。 

不 论 是 算术 表达 式 还 是 逻辑 提问 式 中 ,运算 符 均 有 其 运算 优先 级 ,这 就 决定 了 表达 式 
转换 具有 一 定 的 复杂 度 。 在 人 逻辑 提问 式 中 ,其 运算 符 的 优先 次 序 分 别 为 :“ 一 ”、“ x*”、 
“十 ”另外 括号 内 的 运算 优先 级 最 高 。 因 此 ,在 转换 处 理 过 程 中 ,对 运算 符 的 优先 级 做 如 
下 定义 ( 见 表 6-12)。 


表 6-12 运算 符 的 优先 级 


运算 符 优先 处 理 的 级 别 运算 符 优先 处 理 的 级 别 
(,) 1 x 3 
. 2 = 4 
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转换 之 前 ,需要 为 转换 处 理 开 辟 三 个 存储 区 : 用 于 存放 转换 过 程 中 运算 符 的 算 子 栈 、 
存放 检索 词 的 检索 词 表 存储 区 存放 逻辑 提问 式 的 逆 波兰 表达 式 的 逆 波 兰 输出 区 。 

进行 转换 时 , 需 从 左 向 右 逐 个 扫描 提问 逻辑 式 的 全 部 字符 ,不 同 的 对 象 做 相应 处 理 ， 
具体 如 下 : 

(1) 遇 运 算 符 : 若 当前 算 符 的 优先 级 高 于 前 一 算 符 ,将 该 算 符 送 算 子 栈 内 ; 若 优 
先 级 不 高 于 (包括 等 于 ) 前 一 算 符 , 就 将 顶部 算 符 取出 送 逆 波 兰 输出 区 ,当前 算 符 再 与 
栈 内 顶部 算 符 比较 ,当前 算 符 的 优先 级 低 就 取出 送 逆 波 兰 输 出 区 ,否则 就 将 该 算 符 送 
算 子 栈 内 。 

(2) 遇 左 括号 : 表示 其 后 存在 一 个 复合 检索 项 , 暂 不 组 成 运算 ,应 将 左 括号 无 条 件 置 
入 算 子 栈 内 。 

(3) 遇 右 括号 : 表示 与 其 对 应 的 左 括号 之 间 的 所 有 算 符 都 可 以 组 成 运算 , 栈 内 括号 间 
的 所 有 算 符 无 条 件 出 栈 , 并 送 闭 波 兰 输出 区 ,同时 放弃 掉 这 对 括号 。 

(4) 遇 运 算 项 : 将 运算 检索 项 存 人 检索 词 表 ,并 将 其 在 检索 词 表 的 位 置 送 逆 波 兰 输 


(5) 遇 结束 号 : 算 子 栈 内 的 算 子 依次 出 栈 并 送 入 逆 波 兰 输出 区 。 

在 转换 过 程 中 应 注意 两 点 : 栈 的 规则 是 元 素 “ 后 进 先 出 ”, 转 换 结束 其 栈 为 空 ; 道 波兰 
输出 区 的 算 子 特征 为 1, 检索 词 特征 为 0。 例 如 有 一 个 检索 逻辑 表达 式 “(A 十 B) * (C 十 
EF)”, 它 的 逆 波 兰 转 换 处 理 示 意 如 图 6-12 所 示 。 

3. 检索 指令 表 的 生成 

逻辑 提问 式 的 逆 波 兰 表 达 式 并 不 能 直接 用 于 信息 检索 ,还 需要 将 其 转换 成 一 组 检 
索 指 令 才能 进行 检索 操作 。 这 种 转换 是 直接 针对 逆 波 兰 表 达 式 进行 的 ,通过 逐 行 扫描 
逆 波 兰 输出 表 , 根 据 其 具体 内 容 实现 从 逆 波 兰 输出 表 到 检索 指令 表 的 转换 。 操 作 指 令 
表 由 四 列 元 素 组 成 : 第 一 列 为 操作 码 ,指定 本 行 操作 类 型 ,如 输入 操作 ,运算 操作 、 转 储 
操作 等 ;以 后 三 列 为 操作 数 属性 ,根据 操作 码 来 决定 三 个 操作 数 之 间 的 关系 ,具体 处 理 
过 程 如 下 : 

(1) 若 为 检索 词 ,操作 码 置 1 ,第 一 操作 数 存放 从 逆 波 兰 输出 表 中 取出 的 检索 词 地 址 ， 
第 三 操作 数 存放 该 记录 号 集合 的 工作 区 ,例如 表 6-13 将 检索 词 表 的 03 号 关键 词 的 记录 
号 集合 存放 在 第 2 工作 区 。 


表 6-13 检索 词 操作 指令 表示 
操作 码 第 一 操作 数 第 二 操作 数 第 三 操作 数 
1 3 2 
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逻辑 提问 式 
(A+B)*(C+EF) 


检索 词 表 | 
地 址 | 检索 词 


词 表 地 址 算 子 


特征 内 容 逆 波兰 输出 区 


图 6-12 逆 波 兰 转换 处 理 实例 图 


若 为 运算 符 , 操 作 码 为 ”3”“4”“5”, 分 别 代 表 运算 符 “十 ”“ * ”“ 一 ”, 第 一 、 第 二 操 
作 数 指定 的 两 个 工作 区 的 记录 号 集合 根据 操作 码 进 行 相 关 运 算 , 其 结果 送 入 第 三 操作 数 
指定 的 工作 区 。 例 如 表 6-14 将 第 3、 第 4 两 个 工作 区 的 记录 号 集合 进行 “与 ”运算 ,其 结果 
存放 到 第 1 工作 区 。 
表 6-14 运算 操作 指令 表示 


操作 码 第 一 操作 数 第 二 操作 数 第 三 操作 数 


4 3 4 1 


(2) 若 为 结束 行 , 将 操作 码 置 2, 表 示 转 储 操作 ,把 检索 运算 结果 送 第 7 工作 区 。 因 
此 ,第 一 操作 数 放 检 索 结果 占用 的 工作 区 ,第 三 操作 数 放 置 7, 表 示 把 检索 的 最 终结 果 转 
移 到 第 7 工作 区 。 见 表 6-15。 
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表 6-15 转 储 操作 指令 表示 


操作 码 第 一 操作 数 第 二 操作 数 第 三 操作 数 


2 4 7 


(3) 转 储 操作 结束 ,将 最 后 一 行 的 操作 码 置 为 0, 表示 终止 操作 ,其 他 操作 数 为 空 。 见 
表 6-16 。 


表 6-16 转 储 操作 指令 表示 


由 于 当时 计算 机 内 存 的 硬件 特性 有 限 , 福 岛 方法 设 定 工作 区 为 7 个 ,工作 区 的 使 用 从 
前 向 后 遇 空闲 即 分 配 , 从 而 保证 了 7 个 工作 区 能 够 满足 检索 过 程 的 需要 。 当 然 ,7 个 工作 
区 也 不 是 对 任何 形式 的 逻辑 提问 式 都 能 满足 ,需要 进行 提问 式 的 优化 才能 保证 信息 检索 
得 到 满足 。 
为 了 便于 理解 和 把 握 关 于 信息 检索 指令 表 生 成 的 基本 方法 , 表 6-17 给 出 了 检索 式 
“(A 十 B) x (C 十 EF)” 的 检索 指令 表 生 成 的 全 过 程 。 
表 6-17 检索 指令 表 生 成 过 程 


步骤 操作 表 状 态 工作 区 状态 表 说 明 
递 波 兰 表 的 当前 检索 词 ,操作 码 置 1, 做 “输入 
A ; . 指令 ”, 从 上 至 下 ,第 1 工作 区 为 空 ,第 三 操作 
0 0 数 置 1, 工 作 区 状态 表 第 一 列表 示 该 工作 区 被 
占用 ,第 二 列表 示 该 工作 区 的 运算 次 序 
1 |01 1 
2 -6g 2 1 2 同上 ,但 使 用 第 2 工作 区 ,运算 次 序 为 2 
0 0 
Ee 1 Fr 逆 波 兰 表 的 当前 行为 算 子 ,“ 十 "操作 码 为 3， 
- 表示 “或 运算 操作 ”, 最 前 空闲 工作 区 是 3 号 ， 
a ls oe | 所 以 第 三 操作 数 置 3, 第 1、 第 2 工作 区 分 别 
< 澡 医 全 医 : 司 医 : 1 1 放 入 第 一 、 第 二 操作 数 ,这 两 个 工作 区 的 运算 


- 结果 放 第 3 工作 区 ,第 3 工作 区 的 运算 次 序 
8 为 1., 释 放 第 1 .第 2 工作 区 
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续 表 
步 又 操作 表 状 态 工作 区 状态 表 说 明 
1 |01 1 1 2 
1 | 02 2 0 0 
4 ee , 理由 同 第 一 行 ,运算 次 序 为 2 
1 | 03 1 0 0 
让 :| 1 1 2 
1 | 02 2 1 3 
5 区: 司 医 : 1 1 理由 同 第 二 行 ,运算 次 序 为 3 
1 |03 1 0 0 
1 | 04 2 
1 | ol1 1 0 0 
1 | 02 2 0 0 
加 区 副 本 司 医 : 1 1 理由 同 第 三 行 ,运算 次 序 为 2, 最 新 占用 的 两 
6 个 工作 区 1、2 进行 运算 ,结果 放 在 第 4 工 
1 | 03 1 1 2 作 区 
1 | 04 1 0 0 
区 到 区: 司 医 ， 
1 | 01 1 1 1 
1 | 02 2 0 
7 | 省 交 | 二 0 1 ee 上 ,进行 的 是 与 运算 操作 ,结果 放 第 1 
1 | 03 1 0 2 
1 | 04 2 0 0 
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续 表 
步骤 操作 表 状 态 工作 区 状态 表 说 明 
Y [on 1 0 0 
| 2 0 0 
也 | 下 外 区 | 六 0 0 
1 | 03 1 0 0 


做 “存储 指令 ”和 “终止 指令 ”, 第 1 工作 区 被 


机 ll Ms 0 | 0 | | 释放 ,第 7 工作 区 为 最 终 工作 区 ,被 占用 
3 1 2 4 0 0 
4 3 4 1 1 1 
4 了 学 
0 
4. 检索 实施 


倒 排 文档 可 以 实现 对 记录 信息 (例如 图 书目 录 数 据 库 信息 ) 的 快速 查找 ,查找 时 只 需 
要 查找 索引 文档 就 可 以 定位 哪些 信息 条 目 与 查询 的 请 求 一 致 。 同 时 ,利用 多 个 关键 词 进 
行 复 合 表 达 式 检索 时 ,可 以 在 倒 排 文档 中 先 完成 查找 的 逻辑 运算 ,获取 结果 后 再 对 记录 进 
行 存 取 , 从 而 提高 信息 检索 的 效率 ,但 是 要 先生 成 检索 指令 表 。 检 索 指 令 表 生 成 结束 才 真 
正 进入 实际 检索 处 理 ,整个 检索 过 程 主 要 依赖 检索 词 表 和 检索 操作 指令 表 , 执 行 步 又 按照 
检索 指令 表 的 顺序 进行 ,具体 操作 如 下 。 

(1) 若 操作 码 为 "1”, 应 进行 查找 和 输入 操作 。 将 该 行 第 一 操作 数 中 数据 取出 ,根据 
其 在 检索 词 表 中 获得 检索 词 , 以 该 检索 词 去 查 倒 排 索引 文档 ,得 到 的 记录 号 集合 存储 到 第 
三 操作 数 指定 的 工作 区 中 。 

(2) 若 操作 码 为 "2”, 说 明 应 进行 转 储 操作 。 需 将 第 一 操作 数 指定 的 工作 区 中 的 记录 
号 集合 存储 到 第 三 操作 数 指定 的 工作 区 中 。 若 操作 码 大 于 “2”, 表示 需 进 行 逻辑 运算 操 
作 , 应 将 第 一 、 第 二 操作 数 指定 的 工作 区 中 的 记录 号 集合 , 按 操作 码 代 号 进行 相应 的 逻辑 
运算 ,运算 结果 存放 到 第 三 操作 数 工作 区 中 。 

(3) 若 操作 码 为 "0”, 则 表示 该 逻辑 提问 式 的 检索 处 理 结束 , 需 根据 第 7 工作 区 的 内 
容 (命中 结果 ) 到 主 文档 中 调 出 命中 记录 ,显示 或 打印 给 用 户 。 


186 /大 学 生 信 息 检索 素养 教程 


本 章 小 结 


信息 检索 从 检索 对 象 的 内 容 与 特征 提取 方面 进行 划分 ,可 分 为 两 大 类 , 即 基 于 文本 的 
信息 检索 技术 和 基于 内 容 的 检索 技术 。 文 本 信息 检索 技术 是 目前 最 成 熟 、 实 践 应 用 最 成 
功 最 广泛 的 检索 应 用 技术 。 

文本 分 类 (text categorization,TC) 又 称 为 文本 自动 分 类 , 它 是 信息 检索 和 文本 数据 
挖掘 的 重要 基础 。 文 本 自动 分 类 能 较 好 地 解决 大 量 文档 信息 归 类 的 问题 并 可 以 应 用 到 很 
多 方面 ,如 文本 信息 组 织 、 文 本 识别 ,智能 搜索 、 邮 件 过 滤 、 数 据 挖掘 、 大 数据 处 理 等 。 文 本 
分 类 的 方法 有 决策 树 分 类 方法 .k- 最 邻近 分 类 方法 .KNN 算法 和 朴素 贝 叶 斯 分 类 方法 等 。 
不 同 算法 的 精度 各 不 相同 ,适用 的 领域 也 不 一 样 。 

文本 分 类 大 致 经 历 了 四 个 发 展 阶段 ,目前 处 于 基于 网 络 的 大 数据 自动 分 类 阶段 。 基 
于 统计 机 器 学 习 的 文本 分 类 技术 相对 成 熟 .被 广泛 应 用 于 很 多 数据 库 检 索 系 统 或 网 络 检 
索 工具 。 其 中 包括 基于 概率 方法 的 朴素 贝 叶 斯 分 类 器 、 基 于 实例 的 & 近邻 分 类 器 、 基 于 统 
计 学 习 理 论 和 结构 风险 最 小 原理 基础 上 的 支持 向 量 机 方法 。 

朴素 贝 叶 斯 分 类 是 建立 在 经 典 的 贝 叶 斯 概率 理论 基础 之 上 ,其 基本 思想 是 利用 特征 
项 和 类 别 的 条 件 概率 来 估算 给 定 文档 的 类 别 概率 ,是 一 种 基于 概率 统计 的 分 类 方法 。 

多 元 贝 努 利 模型 (multivariate bernoulli model) 或 者 直接 称 为 贝 努 利 模 型 (bernoulli 
model) 。 它 等 价 于 二 值 独立 模型 ,对 于 词汇 表 中 的 每 个 词 项 都 对 应 一 个 二 值 变量 ,1 和 0 
分 别 表示 词 项 在 文档 中 出 现 和 不 出 现 。 

特征 选择 (feature selection) 是 从 训练 集合 出 现 的 词 项 中 选 出 一 部 分 子 集 的 过 程 。 在 
文本 分 类 过 程 也 仅仅 使 用 这 个 子 集 作为 特征 。 特 征 选择 是 模式 识别 的 关键 问题 之 一 , 特 
征 选择 结果 的 好 坏 直 接 影响 着 分 类 器 的 分 类 精度 和 泛 化 性 能 。 

互信 息 (mutual information,MI) 在 计算 机 模型 分 析 中 用 来 度量 两 个 对 象 之 间 的 相互 
性 ,是 常用 的 特征 选择 方法 之 一 ,在 过 滤 问 题 中 用 于 度量 特征 对 于 主题 的 区 分 度 。 互 信息 
在 统计 语言 模型 中 被 广泛 采用 ,MI 越 大 ,相似 程度 越 大 。 

另 一 个 常用 的 特征 选择 方法 是 六 统计 量 。 在 统计 学 中 ,x? 统计 量 常常 用 于 检测 两 个 
事件 的 独立 性 。x? 统计 方法 只 考虑 了 特征 在 所 有 文档 出 现 的 文档 频数 ,没有 考虑 特征 在 
某 一 文档 中 出 现 的 频率 ,因此 对 文档 频率 低 的 特征 词 不 可 靠 。 

文档 是 建立 各 种 文本 型 检索 数据 库 的 基础 。 从 组 织 形式 上 划分 ,文档 可 以 分 为 顺 排 
文档 (sequential file) 和 倒 排 文档 (inverted file) 两 种 。 顺 排 文 档 就 是 把 记录 按照 一 定 顺 序 
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完整 地 组 织 起 来 ,在 很 多 数据 库 中 被 称 为 主 文档 (或 主 文件 )。 倒 排 文档 就 是 把 顺 排 文档 
中 具有 检索 属性 的 项 目 信息 抽取 出 来 ,重新 排列 组 织 成 新 的 数据 文档 ,在 很 多 数据 库 中 被 
称 为 索引 文档 。 

由 于 索引 文档 数据 量 大 ,因此 要 考虑 与 索引 文档 运行 效率 紧密 相关 的 计算 机 硬件 参 
数 。 因 为 计算 机 内 存 空 间 的 有 限 性 ,我 们 需要 使 用 基于 磁盘 的 外 部 排序 算法 ,也 就 是 基于 
块 的 排序 算法 思想 。 

基于 内 存单 次 扫描 的 索引 算法 (SPIMI) 将 每 个 数据 块 的 词典 (由 固定 文档 生成 的 词 
项 所 组 成 的 有 序 文档 ) 写 入 磁盘 ,对 于 下 一 个 块 则 重新 采用 新 的 词典 。 只 要 硬盘 空间 允 
许 ,SPIMI 算法 就 能 够 构建 足够 大 的 文档 数据 库 。 

顺 排 文档 索引 的 主要 思想 是 将 文档 中 的 每 一 条 记录 去 分 别 匹 配 用 户 的 检索 提问 集 
合 ,文档 处 理 完毕 后 将 各 提问 的 命中 结果 归并 分 发 给 用 户 。 常 用 的 顺 排 文 档 索引 方法 主 
要 有 表 展 开 法 、 人 逻辑 树 法 等 。 

人 逻辑 树 是 将 逻辑 提问 式 展开 成 树 形 结构 ( 称 主 逻 辑 树 ) ,运算 符 构 成 树 的 节点 ,检索 词 
被 视 为 树叶 ,所 有 检索 词 也 按照 有 限 自动 机 原理 构造 成 字符 树 ( 即 子 树 ) , 主 树 与 子 树 间 的 
相关 元 素 用 指针 链接 。 检 索 时 ,采取 遍历 树 原则 处 理 。 

倒 排 文档 技术 是 相对 于 顺 排 文 档 技术 而 言 的 ,是 将 顺 排 文 档 中 可 检索 的 信息 字段 项 
提取 出 来 , 按 一 定 规则 排序 , 归 类 相同 检索 项 字符 ,并 把 在 顺 排 文档 中 相关 记录 的 记录 号 
集合 赋予 其 后 ,以 保证 通过 某 一 特征 词 能 够 快速 .方便 地 获取 相关 记录 信息 。 倒 排 文档 技 
术 常 常 又 称 为 倒 排 索引 。 倒 排 文 档 的 组 成 特点 ,使 得 许多 数学 检索 模型 (如 布尔 模型 、 集 
合 运 算 等 ) 能 够 方便 地 用 于 文本 信息 检索 实践 中 , 它 把 两 个 检索 词 的 迎 辑 运算 转换 成 了 两 
个 检索 词 之 间 的 记录 号 集合 的 运算 。 目 前 最 常见 的 倒 排 文 档 检索 为 逆 波 兰 展开 法 。 


本 章 思考 与 练习 题 


.如何 理解 文本 分 类 的 概念 含义 ? 

. 为 什么 说 “文本 分 类 技术 属于 一 种 有 监督 (supervised) 机 器 学 习 方 法 ”? 
. 最 常见 的 文本 分 类 方法 是 什么 ? 

. 国外 文本 分 类 方法 经 历 了 哪些 发 展 阶段 ? 

. 完整 的 中 文 文本 分 类 系统 ,一 般 由 哪些 功能 模块 组 成 ? 

. 文本 分 类 的 工作 过 程 分 为 哪 几 个 阶段 ? 每 个 阶段 的 任务 是 什么 ? 

. 简 述 朴素 贝 叶 斯 文本 分 类 方法 (NBC) 的 基本 原理 。 


~] 中 四 上 co 吓 
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8. 说 明 多 项 式 贝 叶 斯 分 类 器 基本 算法 。 

9. 可 以 通过 哪些 改进 技术 改进 朴素 贝 叶 斯 文本 分 类 ,以 形成 较 宽松 条 件 限 制 的 贝 叶 
斯 网 络 分 类 器 ? 

10. 简 述 朴素 贝 叶 斯 分 类 的 提升 算法 。 

11. 简 述 加 权 朴 素 贝 叶 斯 文本 分 类 原理 。 

12. 描述 基于 特征 相关 的 改进 加 权 朴 素 贝 叶 斯 文本 分 类 的 基本 原理 。 

13. 贝 努 利 模型 的 基本 含义 是 什么 ? 

14. 请 比较 多 项 式 模型 与 贝 努 利 模型 的 基本 性 质 。 

15. 文本 分 类 特征 选择 的 含义 与 目的 是 什么 ? 

16. 特征 选择 方法 可 以 分 为 哪些 类 型 ? 

17. 文本 互信 息 的 含义 是 什么 ? 简 述 文本 互信 息 选择 的 基本 原理 。 

18. 什么 是 x? 统计 量 ? x? 统计 量 对 文本 选择 的 作用 是 什么 ? 有 何不 足 ? 

19. 简 述 基于 频率 的 特征 选择 方法 的 基本 原理 。 

20. 数据 集 .训练 集 和 测试 集 的 各 自 含义 是 什么 ? 

21. 使 用 什么 方法 对 分 类 器 进行 性 能 评价 ? 

22. 从 哪些 方面 评价 文本 分 类 器 的 性 能 ? 

23. 应 用 哪 几 个 评价 指标 来 评价 文本 分 类 器 ? 

24. 信息 检索 技术 分 为 哪 两 大 类 ? 并 各 举 一 例 说 明 。 

25. 文档 的 含义 是 什么 ”检索 文档 分 为 哪 两 大 类 ?并 各 举 一 例 说 明 。 

26. 举例 说 明基 于 块 的 排序 索引 方法 原理 及 其 主要 步骤 。 

27. SPIMI 算法 与 BSBI 算法 有 何 区 别 ? 

28. 举例 说 明 表 展开 法 索引 的 含义 。 

29. 简 述 逻辑 树 索 引 的 含义 。 

30. 一 般 逻 辑 提问 式 最 终 转换 为 逻辑 树 需 要 哪些 表 ? 请 举例 说 明 。 

31. 举例 说 明 如 何 建立 一 个 倒 排 文档 。 

32. 简 述 “ 逆 波 兰 表 达 式 ”的 含义 。 

33. 利用 逆 波 兰 表 达 式 如 何 构造 倒 排 索引 ? 请 举例 说 明 。 


第 7 章 图 像 信 息 检 索 


近年 来 , 随 着 摄像 头 . 手 机 .平板 .照相 机 等 数字 图 像 生成 设备 的 日 益 普 及 和 广泛 应 
用 ,以 及 数字 存储 技术 和 网 络 通信 技术 的 快速 进步 ,在 政治 经济、 科技 .军事 .医学 .教育 、 
社会 生活 等 诸多 领域 ,每 天 都 会 产生 数据 量 庞大 的 图 像 信息 。 这 些 数 字 图 像 中 包含 了 大 
量 有 价值 的 信息 ,为 了 有 效 利 用 图 像 中 所 承载 的 信息 价值 ,需要 有 一 种 能 够 快速 而 且 准确 
地 从 海量 图 像 中 查找 并 获取 所 需 图 像 的 方法 ,也 就 是 图 像 信息 检索 。 图 像 检 索 通 常 分 为 
两 大 类 : 即 基于 文本 的 图 像 检 索 和 基于 内 容 的 图 像 检 索 。 

基于 文本 的 图 像 检 索 (text-based image retrieval) 历 史 可 以 追溯 到 20 世纪 70 年 代 末 
期 。 当 时 流行 的 图 像 检索 系统 是 将 图 像 作为 数据 库 中 存储 的 一 个 对 象 ,用 关键 字 或 文本 
对 图 像 进行 描述 。 然 而 ,完全 基于 文本 的 图 像 检 索 存在 着 严重 的 问题 。 首 先 ,计算 机 视觉 
和 人 工 智能 都 无 法 自动 对 图 像 进行 标注 ,而 必须 依赖 于 人 工 对 图 像 做 出 信息 描述 并 标注 。 
这 项 工作 不 但 费时 费力 ,而 且 手 工 的 标注 往往 是 不 准确 或 不 完整 的 ,还 常常 有 主观 偏差 。 
也 就 是 说 ,不 同 的 人 对 同一 幅 图 像 有 不 同 的 理解 方法 和 理解 角度 ,其 至 受 不 同 的 图 像 理解 
价值 取向 左右 ,这 种 图 像 的 主观 理解 差异 将 直接 导致 图 像 检索 与 获取 的 结果 不 准确 。 此 
外 ,图 像 中 所 包含 的 丰富 视觉 特征 (颜色 纹理 ,轮廓 等 ) 往 往 无 法 用 文本 进行 客观 的 描述 。 

20 世纪 90 年 代 初 期 , 随 着 大 规模 数字 图 像 数 据 库 的 出 现 ,图 像 的 准确 检索 与 提取 问 
题 变 得 越 来 越 迫 切 。 为 克服 这 些 问 题 ,基于 内 容 的 图 像 检 索 (content-based image 
retrieval) 应 运 而 生 , 它 区 别 于 原 有 系统 中 对 图 像 进行 人 工 标注 的 传统 方法 ,基于 内 容 的 检 
索 能 够 自动 提取 每 幅 图 像 的 视觉 内 容 特 征 作 为 其 索引 ,如 色彩 、 纹 理 、 形 状 等 图 像 内 容 特 
征 ,这 种 方法 从 一 个 新 的 视角 建立 了 图 像 检 索 的 整体 框架 。 


7.1 图 像 基础 知识 


为 了 更 好 地 理解 图 像 检 索 基 础 知识 与 基本 原理 ,首先 需要 掌握 有 关 图 像 的 一 些 基本 
知识 ,包括 图 像 色彩 的 要 素 、 图 像 属性 类 型 与 图 像 格式 方面 的 知识 。 
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7.1.1 图 像 色彩 三 要 素 

图 像 色彩 三 要 素 指 的 是 色彩 亮度 、 色 调 与 饱和 度 ,是 色彩 在 视觉 上 的 反映 特性 ,人 有 眼 
得 到 的 任何 颜色 都 是 这 三 种 要 素 的 综合 效果 与 整体 结果 。 其 中 色调 与 光波 的 波长 有 直接 
关系 ,亮度 和 饱和 度 与 光波 的 幅度 有 关 。 

(1) 亮度 。 亮 度 是 光 作 用 于 人 眼 时 所 引起 的 明亮 程度 的 感觉 , 它 与 被 观察 物体 的 发 
光 强 度 有 关 ,在 色彩 上 反映 为 色彩 的 明暗 程度 ,例如 深 红 色 和 浅 灰色 就 与 亮度 相关 。 亮 度 
有 时 称 为 明度 ,计算 明度 的 基准 是 灰 度 测试 卡 。 黑 色 为 0， an 
隔 地 排列 为 九 个 阶段 ,如 图 7-1 所 示 。 色 彩 可 以 分 为 彩色 和 非 彩色 ,但 后 者 仍然 存在 着 明 
度 。 作 为 彩色 ,每 种 色 各 自 的 亮度 、 暗 度 在 灰 度 测试 卡 上 都 具有 相应 的 位 置 值 。 


中 明 高 中 调 中 明 低 中 调 


中 中 调 


低 短 调 低 中 调 低 长 调 
图 7-1 色彩 亮度 的 灰 度 测试 卡 示 意图 


(2) 色调 。 色 调 是 当 人 眼看 到 一 种 或 多 种 波长 的 光 时 所 产生 的 色彩 感觉 , 它 反 映 颜 
色 的 种 类 ,决定 颜色 的 基本 物理 特征 ,如 红色 和 棕色 就 是 指 色调 。 色 调 有 时 称 色相 ,颜色 
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的 不 同 是 由 光 的 波长 的 长 短 差别 所 决定 的 。 作 为 色相 , 指 的 是 这 些 颜 色 不 同 波长 的 情况 。 
波长 最 长 的 是 红色 ,最短 的 是 紫色 。 把 红 橙黄 . 绿 . 蓝 .此 和 处 在 它们 各 自 之 间 的 红 橙 、 
黄 橙黄 绿 、 蓝 绿 、 蓝 紫 ` 红 紫 这 六 种 中 间 色 ,共计 12 种 色 作为 色相 环 ( 如 图 7-2 所 示 ) 。 


图 7-2 色调 环形 构成 示意 图 


在 色相 环 上 排列 的 颜色 是 纯度 高 的 颜色 ,被 称 为 纯色 。 这 些 颜色 在 环 上 的 位 置 是 根 
据 视 觉 和 感觉 的 相等 间隔 来 进行 组 织 的 。 用 类 似 这 样 的 方法 还 可 以 再 分 出 差别 细微 的 多 
种 颜色 来 。 在 色相 环 上 ,与 环 中 心 对 称 , 并 在 180 度 位 置 两 端的 色 被 称 为 互补 色 。 人 有 眼 得 
到 的 可 见 光 是 由 红 、 橙 、 黄 、 绿 、 青 、 蓝 、 紫 七 种 颜色 组 成 的 ,波长 在 [380nm,740nmj 之 间 。 
其 中 红色 、 绿 色 和 蓝 色 为 “三 原色 ”( 或 称 做 三 基色 ,RGB), 三 原色 的 含义 是 这 三 种 颜色 依 
据 不 同比 例 可 以 组 成 其 他 任何 类 型 色彩 。 

(3) 饱和 度 。 饱 和 度 指 的 是 颜色 的 纯度 , 即 掺 入 白光 的 程度 ,或 者 说 是 指 颜 色 的 深浅 
程度 。 对 于 用 于 色调 的 彩色 光 , 饱 和 度 越 高 ,颜色 越 鲜明 (或 者 说 越 纯 )。 通 常 把 色调 和 饱 
和 度 通称 为 色 度 , 用 数值 表示 颜色 的 鲜艳 或 鲜明 的 程度 称 之 为 彩 度 。 彩 色 的 各 种 色 都 具 
有 彩 度 值 ,无 彩色 的 彩 度 值 为 0, 对 于 彩色 的 彩 度 (纯度 ) 的 高 低 , 区 别 方法 是 根据 这 种 彩 
色 中 含 灰色 的 程度 来 计算 的 。 彩 度 由 于 色相 的 不 同 而 不 同 ,而 且 即 使 是 相同 的 色相 ,因为 
明度 的 不 同 , 彩 度 也 会 随 之 变化 。 
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7.1.2 图 像 的 三 种 基本 类 型 

(1) 位 图 图 像 。 位 图 图 像 (bitmap) ,也 称 为 点 阵 图 像 ,是 由 称 做 像素 (图 片 元 素 ) 的 单 
个 点 组 成 的 。 这 些 点 可 以 进行 不 同 的 排列 和 染色 以 构成 图 样 。 当 放大 位 图 时 ,可 以 看 见 
赖 以 构成 整个 图 像 的 无 数 单个 方块 。 扩 大 位 图 尺寸 的 效果 是 增 大 单个 像素 ,从 而 使 线条 
和 形状 显得 参差 不 齐 。 位 图 文件 记录 了 图 形 或 图 像 的 每 一 个 像素 点 的 位 置 及 代表 该 像素 
颜色 的 数值 等 信息 。 一 般 来 讲 ,同一 位 图 构成 的 像素 点 越 多 ,图 像 越 清 晰 ,例如 同样 一 张 
风景 图 像 ,800 万 像素 就 比 其 300 万 像素 清晰 得 多 。 根 据 有 损 压缩 和 无 损 压 缩 方法 的 最 
后 结果 ,该 类 型 图 像 又 有 多 种 格式 ,例如 ,.bmp 图 、.tif 图 、. gif 图 、. jpg 图 等 。 

(2) 矢量 图 图 像 。 矢 量 图 ,也 称 为 面向 对 象 的 图 像 或 绘图 图 像 ,在 数学 上 定义 为 一 系 
列 由 线 连接 的 点 。 矢 量 图 像 文 件 中 的 图 形 元 素 称 为 对 象 。 每 个 对 象 都 是 一 个 自 成 一 体 的 
实体 , 它 具 有 颜色 .形状 .轮廓 ,大 小 和 屏幕 位 置 等 属性 ,是 计算 机 通过 数学 运算 而 产生 的 
图 形 ,而 不 是 像 位 图 那样 逐 点 描述 的 ,因此 ,该 图 形 所 占 容 量 很 小 ,而 且 它 的 显示 效果 不 受 
图 形 大 小 或 显示 器 分 辨 率 的 影响 。 矢 量 图 的 文件 格式 因 生 成 它 的 软件 的 不 同 而 不 同 。 矢 
量 图 形 的 格式 也 很 多 ,例如 , Adobe 上 ustrator 生成 的 *. AI、*.EPS 和 SVG 图， 
AutoCAD 的 x.dwg 和 dxf,Corel DRAW 的 *.cdr, Windows 标准 图 元 文件 *. wmf 和 
增强 型 图 元 文件 * .emf 等 。 

(3) 印刷 图 。 印 刷 用 图 片 不 同 于 平常 计算 机 显示 用 RGB 图 片 ,必须 为 CMYK 模式 。 
CMYK 代表 印刷 上 用 的 四 种 颜色 : C 代表 青色 ,M 代表 洋红 色 ( 也 称 品 红 ),Y 代表 黄色 ， 
K 代表 黑色 。 印 刷 用 图 片 输出 时 将 图 片 转换 为 网 格 点 ,也 就 是 dpi(dots per inch ,每 英寸 
的 点 数量 精度。 印刷 用 图 片 在 精度 上 理论 最 小 值 要 达到 300dpi。 传 统 胶 印 采用 的 都 是 
柯 氏 印刷 (四 色 套 印 ) ,也 就 是 将 彩色 图 片 分 成 青 (C)、 品 (M)、 黄 (Y)、 黑 (B) 四 色 网 点 ,再 
晒 成 PS 版 ,经 过 胶印 打印 机 四 次 印刷 ,出 来 后 就 是 彩色 的 印刷 成 品 。 


7.1.3 常用 图 像 文件 格式 

在 实际 的 图 像 检索 活动 中 ,大 量 的 图 像 文 件 在 格式 上 是 多 种 多 样 的 。 通 常 在 图 像 数 
据 库 中 , 存 取 的 图 像 格 式 也 不 统一 ,因为 图 像 生 成 或 者 产生 的 途径 与 形式 本 来 就 是 多 
样 的 。 

(1) BMP(bitmap picture, 位 图 )。BMP 图 像 文件 格式 是 一 种 Windows 或 OS2 标准 
的 位 图 式 图 像 文件 格式 , 它 支持 RGB、 索引 颜 色 . 灰 度 和 位 图 样式 模式 ,但 不 支持 Alpha 
通道 。 该 文件 格式 还 可 以 支持 1 一 24 位 的 格式 ,其 中 对 于 4 一 8 位 的 图 像 ,使 用 Run 


第 7 章 图 像 信息 检索 / 193 


Length Encoding(RLE 为 运行 长 度 编码 ) 压 缩 方 案 , 这 种 压缩 方案 不 会 损失 数据 ,该 格式 
非常 稳定 ,在 文件 大 小 没有 限制 的 场合 中 运用 极为 广泛 。 这 种 格式 的 特点 是 包含 的 图 像 
信息 非常 丰富 ,几乎 不 进行 压缩 ,也 由 此 导致 了 它 与 生 俱 来 的 缺点 就 是 占用 空间 较 大 , 因 
此 ,目前 BMP 在 单机 上 比较 流行 。 

(2) GIF(graphics interchange format, 图 形 交 换 格 式 )。GIF 图 像 是 一 种 无 损耗 的 图 
像 格式 ,在 各 种 平台 的 图 形 处 理 软 件 上 均 可 处 理 的 经 过 压缩 的 图 形 格 式 。GIF 是 一 种 布 
尔 透 明 类 型 , 它 既 可 以 是 全 透明 ,也 可 以 是 全 不 透明 ,但 是 没有 半 透 明 的 属性 。GIF 使 用 
了 一 种 叫做 LZW (lempel-ziv-welch encoding,LZW) , 即 字符 串 表 压缩 算法 进行 压缩 ,在 
GIF 的 压缩 过 程 中 ,像素 是 由 上 到 下 水 平 压缩 的 ,这 也 意味 着 同等 条 件 下 ,横向 的 GIF 图 
片 比 竖 向 的 GIF 图 片 更 小 , 它 不 适合 照片 ,但 适合 对 颜色 要 求 不 高 的 图 形 ( 比 如 说 图 标 、 
图 表 等 )。GIF 支持 动画 ,目前 网 络 上 大 量 采用 的 彩色 动画 文件 多 为 这 种 格式 的 文件 ,也 
称 为 GIF 动画 格式 文件 。 此 外 考虑 网 络 传输 中 的 实际 情况 ,GIF 图 像 格 式 还 增加 了 渐 显 
方式 , 即 在 图 像 传输 过 程 中 ,用 户 可 以 先 看 到 图 像 的 大 致 轮廓 ,然后 随 着 传输 过 程 的 继续 
而 逐步 看 清 图 像 中 的 细节 部 分 ,从 而 适应 了 用 户 的 “从 膀胱 到 清楚 ?的 观赏 心理 。GIF 不 
能 存储 超过 256 色 的 图 像 。 

(3) JPEG(joint graphic expert group ,联合 图 像 专家 组 )。JPEG 是 可 以 大 幅度 地 压 
缩 图 形 文件 的 一 种 图 形 格式 ,JPEG 是 一 种 有 损 压 缩 格式 ,此 格式 的 图 像 通常 用 于 图 像 预 
览 和 一 些 超 文本 文档 中 (HTML 文档 ) 的 图 像 嵌 入 。 因 此 在 普通 应 用 领域 (非特 殊 要 求 领 
域 ) ,该 格式 的 图 像 普及 率 与 流行 度 最 高 ,例如 ,各 种 手机 、 数 码 照 相机 所 采集 的 大 多 数 图 
像 均 为 JPEG 格式 。JPEG 格式 的 最 大 特色 就 是 文件 比较 小 ,可 以 进行 高 倍率 压缩 ,是 目 
前 所 有 格式 中 压缩 率 最 高 的 格式 之 一 。JPEG 格式 存储 的 文件 数据 量 是 其 他 类 型 的 图 形 
文件 的 1/10 一 1/20, 而 且 色彩 数 最 高 可 达到 24 位 ,因此 被 广泛 应 用 于 网 络 上 的 网 页 或 
Internet 上 的 图 片 库 。JPEG 格式 在 压缩 保存 的 过 程 中 会 以 矢量 最 小 的 方式 丢掉 一 些 肉 
眼 不 易 察觉 的 数据 ,因此 保存 的 图 像 与 原 图 有 所 差别 ,没有 原 图 的 质量 好 ,因此 印刷 品 最 
好 不 要 用 此 图 像 格式 。 

(4) TIFFC x .tif)。TIFF 的 英文 全 名 是 tagged image file format( 标 记 图 像 文件 格 
式 ) ,是 Mac 中 广泛 使 用 的 图 像 格 式 , 它 由 Aldus 和 微软 联合 开发 ,最 初 是 为 跨 平台 存储 
扫描 图 像 的 需要 而 设计 的 。 该 格式 分 为 有 损 压缩 和 无 损 压 缩 两 种 形式 ,最 高 支持 的 色彩 
数 可 达 16 位 。TIFF 格式 存储 信息 量 大 ,便于 应 用 程序 之 间 和 计算 机 平台 之 间 图 像 数据 
交换 ,细微 层次 的 信息 较 多 ,有 利于 复制 ,但 文件 体积 大 ,图 像 格式 复杂 。 该 格式 的 压缩 方 
式 可 采用 LZW 无 损 压 缩 方案 存储 。 
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(5) PSD( x . PSD)。PSD 格式 是 Adobe Photoshop 软件 自身 的 格式 ,这 种 格式 可 以 
存储 Photoshop 中 所 有 的 图 层 、 通 道 、 参 考 线 、 注 解 和 颜色 模式 等 信息 。PSD 其 实 是 
Photoshop 进行 平面 设计 的 一 张 草稿 图 文件 或 者 工程 图 文件 ,里 面包 含有 各 种 图 层 、 通 
道 . 遮 罩 等 多 种 设计 的 样稿 ,以 便于 下 次 打开 文件 时 可 以 修改 上 一 次 的 设计 。PSD 格式 所 
包含 图 像 数据 信息 较 多 (如 图 层 . 通 道 、. 剪 辑 路 径 .参考 线 等 ) ,大 多 数 排版 软件 不 支持 PSD 
格式 文件 。 

(6) PNG(portable network graphics ,便捷 网 络 图 ) 。PNG 是 一 种 新 兴 的 网 络 图 像 格 
式 。1994 年 年 底 , 由 于 Unysis 公司 宣布 GIF 拥有 专利 的 压缩 方法 ,要 求 开 发 GIF 软件 的 
作者 必须 缴纳 一 定 费用 ,由 此 促使 免费 的 PNG 图 像 格式 诞生 。1996 年 10 月 1 日 由 PNG 
向 国际 网 络 联盟 提出 并 得 到 推荐 认可 标准 ,大 部 分 绘图 软件 和 浏览 器 开始 支持 PNG 图 像 
浏览 。PNG 是 目前 保证 图 像 信息 最 不 失真 的 格式 ,PNG 格式 包括 许多 子 类 ,存储 形式 丰 
富 , 兼 有 GIF 和 JPEG 的 色彩 模式 ,在 实践 中 大 致 可 以 分 为 256 色 的 PNG 和 全 色 的 
PNG ,用户 可 以 用 256 色 的 PNG 代替 GIF ,用 全 色 的 PNG 代替 JPEG。PNG 的 一 个 特点 
是 能 把 图 像 文件 压缩 到 极限 以 利于 网 络 传输 ,又 能 保留 所 有 与 图 像 品 质 有 关 的 信息 。 
PNG 的 另 一 个 特点 是 支持 间隔 渐进 显示 ,显示 速度 很 快 , 只 需 下 载 1/64 的 图 像 信息 就 可 
以 显示 出 低 分 辩 率 的 预览 图 像 , 但 是 会 造成 图 片 变 得 更 大 。PNG 同样 支持 透明 图 像 的 制 
作 。PNG 的 缺点 是 不 支持 动画 应 用 效果 ,PNG 有 GIF 的 所 有 特点 ,但 比 GIF 更 具有 优势 
的 是 它 支持 alpha 透明 和 更 优 的 压缩 。 

(7) SVG (scalable vector graphics, 可 缩放 的 矢量 图 )。 它 是 由 World Wide Web 
Consortium(W3C) 联 盟 进 行 开 发 的 基于 XML 应 用 的 图 像 格 式 。 严 格 来 说 ,应 该 是 一 种 
开放 标准 的 矢量 图 形 语言 ,可 让 用 户 设计 高 分 辩 率 的 Web 图 形 页 面 。 用 户 可 以 直接 用 代 
码 来 描绘 图 像 , 可 以 用 任何 文字 处 理工 具 打 开 SVG 图 像 ,通过 改变 部 分 代码 来 使 图 像 具 
有 交互 功能 ,并 可 以 随时 插入 到 HTML 中 通过 浏览 器 来 观看 。SVG 提供 了 目前 网 络 流 
行 格式 GIF 和 JPEG 无 法 具备 的 优势 : 可 以 任意 放大 图 形 显示 ,但 绝 不 会 以 牺牲 图 像 质 
量 为 代价 ;只 在 SVG 图 像 中 保留 可 编辑 和 可 搜寻 的 状态 ;SVG 文件 比 JPEG 和 GIF 格式 
的 文件 要 小 很 多 ,因此 下 载 也 很 快 。SVG 的 开发 将 会 为 Web 提供 新 的 图 像 标准 。 

(8) EPS(encapsulated PostScript)。EPS 是 PC 用 户 比 较 少见 的 一 种 格式 ,而 苹果 
Mac 的 用 户 则 用 得 较 多 。 它 是 用 PostScript 语言 描述 的 一 种 ASCII 码 文件 格式 ,主要 用 
于 排版 .打印 等 输出 工作 。 用 PostScript 语言 描述 的 ASCII 图 形 文件 ,在 PostScript 图 形 
打印 机 上 能 打印 出 高 品质 的 图 形 图 像 ,其 最 大 的 优点 是 可 以 在 排版 软件 中 以 低 分 辩 率 预 
览 ,而 在 打印 时 以 高 分 辩 率 输出 。 
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(9) CDR(CorelDraw)。CDR 是 CorelDraw 软件 工具 的 文件 格式 。CDX 是 所 有 
CorelDraw 应 用 程序 均 能 使 用 的 图 形 图 像 文 件 , 是 发 展 成 熟 的 CDR 文件 。 

(10) DIB(device independent bitmap)。 描 述 图 像 的 能 力 基本 与 BMP 相同 ,并 且 能 
运行 于 多 种 硬件 平台 ,只 是 文件 较 大 。 

(11) DIF(drawing interchange format)。AutoCAD 中 的 图 形 文 件 , 它 以 ASCII 码 方 
式 存储 图 形 , 表 现 图 形 的 大 小 方面 十 分 精确 ,可 以 被 CorelDraw,3d MAX 等 大 型 软件 调 
用 编辑 。 

(12) DXF(drawing exchange format)。DXF 是 AutoCAD 中 的 矢量 文件 格式 , 它 以 
ASCII 码 方式 存储 文件 ,在 表现 图 形 的 大 小 方面 十 分 精确 。 许 多 软件 都 支持 DXF 格式 的 
输入 与 输出 。 

(13) EMF(enhanced metafile)。EMEF 是 微软 公司 为 了 弥补 使 用 WMEF 的 不 足 而 开 
发 的 一 种 Windows 32 位 扩展 图 元 文件 格式 ,也 属于 矢量 文件 格式 ,其 目的 是 使 图 元 文件 
更 加 容易 接受 。 

(14) IFF(image file format) 。 用 于 大 型 超级 图 形 处 理 平台 ,比如 AMIGA 机 ,好 莱 坞 
的 特技 大 片 多 采用 该 图 形 格式 处 理 。 图 形 ( 图 像 ) 效 果 , 包 括 色彩 纹理 等 盟 真 再 现 原 景 。 
当然 ,该 格式 耗 用 内 存 、 外 存 等 计算 机 资源 较 大 。 

(15) FLIC(FLI/FLC)。FLIC 格式 由 Autodesk 公司 研制 而 成 ,FLIC 是 FLC 和 FLI 
的 统称 。FLI 是 最 初 的 基于 320 X 320 分 辩 率 的 动画 文件 格式 ,而 FLC 则 采用 了 更 高 效 
的 数据 压缩 技术 ,具有 比 FLI 更 高 的 压缩 比 ,其 分 辨 率 也 有 了 不 少 提高 。 

(16) MPT(macintosh paintbrush) 或 MAC。Macintosh 机 所 使 用 的 灰 度 图 像 模 式 ， 
在 Macintosh Paintbrush 中 使 用 ,其 分 辨 率 只 能 是 720X567。 

(17) PCD(Photo CD) 。 由 柯达 公司 开发 ,其 他 软件 系统 对 其 只 能 读 取 。 

(18) PCP(PC paintbrush) 。 由 ZSoft 公司 创建 的 一 种 经 压缩 且 节 约 磁 盘 空 间 的 PC 
位 图 格式 ,最 高 可 表现 24 位 图 形 图 像 。 过 去 有 一 定 市 场 , 但 随 着 JPEG 的 兴起 ,其 地 位 已 
是 日 薄 西 山 。 

(19) PCX。PCX 格式 是 由 ZSoft 公司 在 开发 图 像 处 理 软 件 paintbrush 时 开发 的 一 
种 格式 ,这 是 一 种 经 过 压缩 的 格式 ,占用 磁盘 空间 较 少 。 由 于 该 格式 出 现 的 时 间 较 长 ,并 
且 具 有 压缩 及 全 彩色 的 能 力 ,所 以 现在 仍 比较 流行 。 

(20) TGA(tagged graphics)。TGA 文件 格式 是 由 美国 Truevision 公司 为 其 显卡 开 
发 的 一 种 图 像 文 件 格式 ,已 被 国际 上 的 图 形 图 像 工业 所 接受 。TGA 的 结构 比较 简单 , 属 
于 一 种 图 形 图 像 数据 的 通用 格式 ,最 高 色彩 数 可 达 32 位 。VDA、PIX、WIN、BPX、ICB 等 
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均 属 旁 系 。TAG 格式 在 多 媒体 领域 有 着 很 大 的 影响 ,是 计算 机 生成 图 像 并 向 电视 转换 的 
一 种 首选 格式 。 

(21) WMF(windows metafile format)。WHMEF 是 windows 中 常见 的 一 种 图 元 文件 
格式 ,属于 矢量 文件 格式 。 它 具有 文件 短小 、 图 案 造 型 化 的 特点 ,整个 图 形 常 由 各 个 独立 
的 组 成 部 分 拼接 而 成 。 该 类 图 形 比 较 粗 糙 , 并 且 只 能 在 Microsoft Office 中 调用 编辑 。 

除 此 之 外 ,Macintosh 机 专用 的 图 形 图 像 格 式 还 有 PNT 、PICT PICT2 等 。 


7.2 图 像 检 索 概述 


图 像 的 数据 库 传统 管理 方式 是 以 文件 系统 为 中 心 进行 展开 的 , 当 用 户 查 询 一 幅 图 像 
时 ,要 逐一 打开 文件 进行 浏览 才能 找到 其 目标 图 像 , 随 图 像 文件 数量 的 急剧 增加 ,查找 效 
率直 线 降低 。 由 于 以 文件 存储 方式 对 图 像 的 使 用 和 操作 非常 方便 ,因而 以 文件 管理 图 像 
的 方式 一 直 延 续 至 今 。 基 于 图 像 内 容 ( 形 状 、 纹 理 、 颜 色 等 ) 的 检索 技术 则 能 够 克服 基于 文 
本 形式 的 图 像 检索 的 一 些 重要 缺陷 以 提高 其 检索 精度 。 


7.2.1 图 像 检 索 一 般 模型 

图 像 检 索 一 般 模型 ( 见 图 7-3) 主要 包括 以 下 几 个 方面 的 内 容 。 

(1) 图 像 特 征 提取 。 图 像 特 征 提取 一 般 从 两 个 方面 人 手 , 图 像 底 层 特征 提取 和 话 义 
特征 提取 。 底 层 特 征 一 般 包 括 图 像 的 色彩 、 纹 理 和 形状 特征 ,其 特点 是 这 些 特征 对 于 指定 
图 像 是 唯一 的 .定量 的 。 图 像 语义 特征 比较 难 提取 ,目前 通过 人 工 提取 或 者 人 机 交互 来 获 
得 图 像 语 义 特征 。 

(2) 检索 匹配 机 制 。 针 对 基于 色彩 特征 的 图 像 检 索 , 常 用 的 检索 匹配 机 制 有 直方 图 
距离 . 欧 氏 距离 .信息 灶 等 ,至 于 哪 种 匹配 机 制 最 有 效 , 并 没有 严格 意义 的 定论 。 在 检索 系 
统 中 ,合理 选取 检索 匹配 机 制 是 十 分 重要 的 ,很 多 时 候 需 要 多 种 检索 匹配 机 制 联合 工作 才 
能 取得 较 好 的 效果 。 

(3) 检索 者 终端 。 检索 者 终端 是 指 用 户 与 系统 的 接口 ,包括 索引 机 制 和 反馈 机 制 。 
索引 机 制 包 括 按 例 查 询 (query by example, QBE) 和 按 草图 查询 (query by sketching， 
QBS) 。 一 般 来 说 ,QBE 是 现在 基于 图 像 内 容 检索 的 必 备 索引 机 制 ,而 QBS 对 检索 者 的 要 
求 较 高 ,大 多 数 检索 者 不 会 手工 绘图 进行 查询 。 

(4) 相关 反馈 (relevant feedback)。 相 关 反 馈 是 指 检索 者 对 于 检索 结果 的 反馈 ,检索 
系统 会 根据 相似 度 排序 给 出 检索 结果 ,检索 者 则 可 以 通过 反馈 系统 对 检索 结果 进行 信息 
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反馈 ,系统 会 动态 调整 相关 权重 或 其 他 参数 ,以 此 来 完成 二 次 检索 ,甚至 多 次 检索 来 达到 
图 像 检索 需求 的 满足 。 
图 像 库 
UL 


DO— 
| 图 像 特征 库 l 
一 全 


| @ 


图 7-3 图 像 检 索 一 般 模型 


7.2.2 基于 文本 方式 的 图 像 检 索 

早 在 20 世纪 70 年 代 , 数 据 库 专 家 就 开始 研究 如 何 对 图 像 数据 进行 有 效 的 管理 ,其 主 
要 方法 是 对 图 像 文件 建立 关键 词 或 图 像 标 题 以 及 一 些 附 加 描述 信息 ,然后 在 图 像 的 存储 
路 径 和 图 像 关键 词 之 间 建 立 联系 ,传统 的 关系 数据 库 技术 就 可 以 满足 这 样 的 要 求 。 现 在 
数据 库 技术 已 经 取得 了 长 足 的 进步 ,一 些 大 的 商用 数据 库 系 统 都 开始 支持 以 二 进 制 数据 
形式 存储 图 像 ,但 对 图 像 的 管理 仍 是 通过 二 进 制 数据 形式 和 图 像 的 关键 词 建立 联系 来 实 
现 的 。 由 于 直接 在 数据 库 中 访问 图 像 的 操作 比较 复杂 ,因此 在 数据 库 中 以 二 进 制 数据 形 
式 管理 和 检索 图 像 的 方法 在 目前 并 没有 流行 起 来 。 
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7.2.3 ”基于 知识 和 视觉 特征 的 图 像 检索 

事实 上 ,对 图 像 视觉 特征 进行 管理 在 20 世纪 70 年 代 就 曾经 引起 了 人 工 智 能 和 模式 
识别 等 领域 的 关注 ,并 取得 了 一 定 的 成 就 。 这 时 的 图 像 数 据 库 主要 是 应 用 在 某 一 特定 的 
领域 ,往往 和 其 他 信息 系统 结合 在 一 起 使 用 ,主要 涉及 地 理 信 息 系统 、 病 人 X 照片 的 归 
档 、 检 索 和 诊断 系统 ,以 及 人 脸 识别 和 指纹 识别 系统 。 在 70 年 代 到 80 年 代 初 ,采用 关系 
数据 库 子 系统 和 图 像 存 储 管理 子 系统 集成 设计 成 图 像 数据 库 系 统 , 对 图 像 数 据 进行 检索 ， 
图 像 检 索 主 要 包括 属性 检索 、 结 构 检 索 、 相 似 检索 以 及 这 几 种 方式 的 综合 检索 。REDI 是 
普度 大 学 完成 的 一 个 综合 数据 库 系 统 , 它 与 一 个 图 像 数 据 理解 系统 之 间 保 留 有 接口 ,该 系 
统 通过 图 像 处 理 和 模式 识别 方法 提取 出 图 像 的 结构 信息 和 特征 ,查询 操作 采用 关系 查询 
语言 , 它 涉及 空间 关系 和 常规 的 查询 。 在 随后 又 出 现 了 用 二 维 符号 串 (2D-string) 来 表达 
一 幅 迎 辑 图 像 的 空间 关系 ,并 将 此 方法 用 于 图 像 检 索 系统 中 。 

早期 图 像 数据 库 的 典型 应 用 是 地 理 信息 系统 ,随后 一 些 人 工 智 能 研究 者 在 研究 和 开 
发 专家 系统 的 过 程 中 ,采用 图 像 数 据 来 加 强 对 问题 的 解释 能 力 , 运 用 了 图 像 的 一 些 模式 特 
征 , 并 对 这 些 特征 进 行 一 定 的 语义 解释 ,例如 采用 图 像 数据 库 技术 来 管理 病人 的 心脏 照 
片 。 在 现在 的 指纹 识别 系统 和 人 脸 的 照片 管理 系统 中 已 经 取得 了 较 成 功 的 运用 。 早 期 的 
图 像 数 据 库 规模 小 且 仅 应 用 在 特定 的 领域 ,检索 方面 也 大 都 以 精确 模式 匹配 为 主 。 


7.2.4 基于 内 容 的 图 像 检 索 

20 世纪 80 年 代 是 多 媒体 技术 发 展 的 时 代 , 图 像 的 获取 、 创 作 、 压 缩 、 存 储 技术 都 取得 
了 举世 瞩目 的 成 就 ,而 对 图 像 信 息 的 检索 应 用 尚未 给 予 足够 的 重视 。90 年 代 是 计算 机 网 
络 时 代 , 特 别 是 90 年 代 中 期 以 来 以 Web 为 代表 的 信息 发 布 以 及 资源 访问 方式 的 广泛 流 
行 ,信息 的 发 布 方式 也 从 单一 文本 方式 转变 为 以 图 形 .图 像 动画、 视频 和 音频 等 视听 信息 
为 一 体 的 多 媒体 方式 。 整 个 Internet 网 络 环境 就 像 一 个 大 型 的 分 布 式 数据 库 , 在 其 中 寻 
找 自己 感 兴 趣 的 任何 一 种 媒体 信息 犹如 大 海 捞 针 ,因此 对 网 络 信息 检索 工具 的 依赖 日 益 
加 强 。 而 目前 基于 网 络 的 检索 工具 如 Baidu Google Yahoo Info seek 和 Lycos 等 大 多 采 
用 基于 文本 检索 的 方式 去 获取 图 像 文件 ,这 种 采用 对 图 像 建立 关键 词 等 文本 描述 图 像 信 
息 的 方式 已 越 来 越 不 适应 网 络 信息 检索 的 要 求 。 基 于 文本 的 图 像 检 索 主 要 存在 以 下 
局 限 。 

(1) 对 图 像 标识 文本 信息 仍 由 手工 完成 , 随 着 图 像 数据 来 源 日 益 广泛 , 这 种 方法 显得 
费时 费力 。 
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(2) 文本 描述 信息 是 非常 主观 的 ,不 同 的 人 对 同一 幅 图 像 数 据 可 能 有 不 同 的 理解 , 因 
此 当 用 户 在 查询 时 输入 的 关键 词 和 数据 库 中 的 关键 词 不 一 致 或 这 些 关 键 词根 本 就 不 存在 
时 ,将 导致 检索 失败 。 

(3) 采用 关键 词 形式 很 难 将 图 像 所 反映 的 内 容 描述 清楚 并 描述 完整 ,因为 一 幅 画 胜 
寺 干 名 话 ”。 

(4) 由 于 媒体 信息 是 发 布 在 Internet 网 络 环 境 中 ,不 同 国家 不 同 民 族 很 难 用 同一 种 
语言 对 图 像 进行 标识 和 描述 ,而 且 对 图 像 语 义理 解 的 差异 性 也 很 大 。 

为 了 突破 文本 检索 方式 的 诸多 炊 端 ,人 们 又 转向 研究 图 像 中 所 包含 的 内 容 信 息 作为 
图 像 的 索引 ,对 这 方面 的 研究 要 归功 于 模式 识别 研究 者 ,其 主要 的 方法 是 根据 图 像 的 色 
彩 、 纹 理 、 图 像 对 象 的 形状 以 及 它们 的 空间 关系 等 内 容 特征 作为 图 像 的 索引 ,计算 查询 图 
像 和 目标 图 像 的 相似 距离 , 按 相似 度 匹配 进行 检索 ,其 目的 是 试图 解决 图 像 数据 库 系统 中 
手工 建立 文本 标识 信息 的 诸多 缺陷 。 

作为 传统 数据 库 检 索 的 拓展 ,基于 内 容 的 图 像 检 索 系 统 主 要 是 根据 图 像 的 内 容 进 行 
检索 。 同 传统 的 关系 数据 库 检 索 系 统 相 比 , 它 主要 具有 以 下 特点 。 

(1) 传统 的 数据 库 中 ,符号 数据 可 以 用 基本 数据 类 型 精确 地 表示 ,检索 匹配 是 精确 匹 
配 。 而 图 像 数 据 是 一 段 二 进 制 数据 流 , 对 图 像 进行 像素 和 像素 的 精确 匹配 不 科学 。 事 实 
上 人 对 两 个 图 像 的 相似 和 不 相似 的 判断 是 根据 图 像 中 所 包含 的 内 容 , 很 难 将 其 精确 描述 ， 
因此 内 容 的 表达 是 近似 的 。 

(2) 图 像 数 据 的 表达 不 是 单一 的 ,多 种 表达 方法 并 存 是 必要 的 ,表达 方法 的 选择 要 依 
赖 于 特定 的 用 户 和 特定 的 应 用 领域 , 随 着 识别 技术 的 发 展 还 可 能 采用 更 新 或 更 好 的 表达 
方法 。 

(3) 符号 数据 本 身 就 具有 语义 信息 ,在 符号 数据 命名 的 过 程 中 就 赋予 了 特定 的 信息 。 
图 像 中 的 内 容 本 身 不 包含 语义 信息 ,对 图 像 的 匹配 主要 是 对 图 像 中 的 内 容 特 征 进行 相似 
匹配 。 

(4) 由 于 对 内 容 表达 不 精确 ,因此 检索 得 到 的 结果 可 能 包含 一 些 不 相关 的 图 像 ,这 种 
情况 对 基于 内 容 的 检索 是 允许 的 ,但 重要 的 一 点 是 在 检索 中 不 要 将 相关 的 图 像 过 滤 掉 。 


7.2.5 图 像 内 容 描述 的 标准 化 

由 于 基于 内 容 的 图 像 检索 有 着 广泛 的 需求 和 较 好 的 市 场 前 景 ,因而 也 引起 了 国际 标 
准 化 组 织 的 关注 ,MPEG( 动 态 图 像 专家 组 ) 正 在 着 手 制定 更 高 版 本 的 MPEG-7( 又 称 为 多 
媒体 内 容 描 述 接口 ) , 它 主 要 是 对 各 种 类 型 的 多 媒体 数据 进行 规范 化 描述 ,目的 是 便于 快 
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速 和 有 效 地 查找 用 户 感 兴趣 的 图 像 资料 。MPEG-7 的 推出 将 产生 广泛 的 应 用 前 景 ,包括 
数字 图 书馆 、 多 媒体 目录 服务 、 广 播 媒 体 的 选择 、 多 媒体 编辑 等 。 这 些 潜在 的 应 用 将 对 下 
面 的 应 用 领域 产生 巨大 的 影响 ,如 教育 .娱乐 .调查 服务 、 地 理 信息 系 统 、 医 疗 应 用 、 电 子 购 
物 . 电 影 、 视 频 和 无 线 广 播 归 档 等 。 随 着 多 媒体 内 容 描 述 的 标准 化 ,图 像 内 容 的 描述 也 将 
随 之 而 标准 化 ,基于 内 容 的 图 像 检 索 将 朝 商 业 化 方向 快速 迈进 。 

综 上 所 述 ,对 图 像 的 存储 与 检索 早期 是 采用 文件 方式 ;在 20 世纪 70 年 代 到 80 年 代 
期 间 是 采用 关键 词 等 描述 方法 建立 图 像 的 索引 ,这 个 时 期 主要 以 数据 库 学 派 的 研究 为 主 ， 
同时 出 现 了 以 视觉 特征 为 图 像 索 引 的 面向 特定 应 用 的 小 规模 图 像 数 据 库 系统 ;90 年 代 以 
后 ,人 们 转向 研究 以 面向 网 络 环境 支持 基于 内 容 检索 的 大 规模 图 像 数据 库 系统 ,这 个 时 期 
主要 以 模式 识别 学 派 的 研究 为 主 。 到 2000 年 以 后 随 着 MPEG-7 的 推出 ,图 像 检 索 将 朝 
标准 化 和 商业 化 方向 快速 发 展 。 


7.3 基于 图 像 内 容 特 征 提取 


图 像 特征 提取 是 基于 内 容 的 图 像 检 索 的 基础 ,广义 上 讲 , 特 征 应 该 包括 图 像 的 文本 特 
征 (图 像 名 称 、 关 键 词 注释 等 ) 和 图 像 视觉 特征 (颜色 ,纹理 ,形状 等 )。 视 觉 特征 可 以 进 一 
步 分 为 通用 特征 和 领域 相关 特征 ,前 者 包括 颜色 、 纹 理 以 及 形状 特征 ;后 者 与 具体 的 应 用 
紧密 相关 ,如 和 人 的 面部 特征 和 指纹 特征 等 。 由 于 感知 的 主观 特性 ,对 于 给 定 的 特征 并 不 存 
在 一 种 最 佳 的 表达 方式 ,图 像 特征 的 不 同 表达 方式 从 各 个 不 同 的 角度 刻画 了 该 特征 的 某 
些 性 质 。 


7.3.1 基于 颜色 特征 的 图 像 检索 

在 图 像 检 索 中 颜色 特征 是 应 用 最 广泛 的 视觉 特征 , 它 在 复杂 背景 和 不 依赖 于 图 像 的 
大 小 和 方向 时 应 用 较 多 。 图 像 颜 色 特征 是 一 种 全 局 特征 ,描述 了 图 像 或 图 像 区 域 所 对 应 
的 景象 的 表面 性 质 。 一 般 颜 色 特征 是 基于 像素 点 的 特征 ,此 时 所 有 属于 图 像 或 图 像 区 域 
的 像素 都 有 各 自 的 贡献 。 由 于 颜色 对 图 像 或 图 像 区 域 的 方向 ,大 小 等 变化 不 敏感 ,所 以 颜 
色 特 征 不 能 很 好 地 捕捉 图 像 中 对 象 的 局 部 特征 。 在 颜色 特征 方面 ,颜色 直方 图 描述 了 图 
像 颜 色 的 统计 分 布 特征 且 具 有 平移 、 尺 度 、 旋 转 不 变性 ,因此 通常 用 颜色 直方 图 来 描述 颜 
色 特 征 。 

1. 颜色 模型 

计算 机 系统 中 ,RGB 颜色 模型 是 最 易 量 化 的 模型 , 它 通过 红色 、 绿 色 和 蓝 色 的 搭配 来 
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精准 地 构造 需要 的 颜色 。 在 图 像 检索 技术 中 ,因为 检索 过 程 要 符合 人 的 主观 意识 ,而 人 有 眼 
对 于 RGB 模型 不 如 五 SV 模型 敏感 ,实际 中 人 有 眼 对 于 HSV 颜色 模型 更 加 容易 感知 。 

(1) HSV 颜色 模型 。HSV 模型 即 色调 五. 饱和 度 S 和 亮度 V, 此 模型 可 以 用 三 维 坐 
标 系统 表示 ,如 图 7-4 所 示 。 


Saturation 


(a) (b) 
图 7-4 HSV 颜色 模型 图 


首先 将 RGB 量化 为 HSV ,再 进行 分 维 操作 , 即 量化 成 若干 个 等 级 。 实 验 表 明 , 维 数 
越 多 计量 不 一 定 越 精 准 , 维 数 与 检索 精度 不 成 线性 关系 , 当 维 数 增加 到 一 定数 量 时 ,增加 
维度 来 增加 检索 精度 可 能 不 明显 甚至 出 现 倒退 。 进 行 分 维 是 必要 的 ,比如 同样 的 取景 ,一 
张 是 以 晴天 为 背景 的 照片 ,一 张 是 以 阴 天 为 背景 的 照片 ,在 人 眼中 ,这 是 相同 的 两 张 照 片 ， 
但 是 由 于 色调 、 饱 和 度 和 亮度 的 细微 差别 ,在 计算 机 中 ,可 能 被 认为 是 完全 不 同 的 两 张 照 
片 ,进行 分 维 让 计算 机 能 像 人 眼 一 样 忽 略 其 中 某 些 细微 差别 。 将 HSV 空间 (hE€ [0， 
360],sEL0,1],vEL0,1]) 非 均匀 量化 为 32 类 ,这 里 进行 简要 描述 如 下 : 

If v 二 0.2 黑色 row 王 0 

Else if 过 0.2 and s 二 0.1 根据 vE[0.2,1. 0] 划 分 为 三 类 : 深 灰 [0. 2,0. 5) , 浅 灰 
[0.5,0. 8) ,白色 [0.8,1.0]row 一 1,2,3 

Else 过 0. 1 

将 五 非 均 等 分 成 赤色 [0,20) ,橙色 [20,45) ,黄色 [45,75), 绿 色 [75,165) ,青色 [165， 
200) , 蓝 色 [200,270) ,紫色 [270,360] 七 个 部 分 。 
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将 V 分 为 暗色 [0.2,0.5), 明 色 [0.5,1.0) 两 个 部 分 。 

将 S 分 为 浅 色 [0. 1,0. 45) , 浓 色 [0. 45,1.0) 两 个 部 分 , 共 7X2X2=28 种 划分 ， 
rowE[4,32] 且 rowEN” 。 用 上 述 方法 将 HSV 色彩 模型 共 分 为 1 十 3 十 28 王 32 种 颜色 。 

(2) RGB 颜色 模型 。 我 们 日 常见 到 的 最 普遍 的 颜色 模型 就 是 RGB 模型 , 它 与 人 眼 视 
觉 结构 密 切 相关 , 它 是 一 个 三 维 空间 模型 ,三 个 坐标 轴 分 别 是 R( 红 ),G( 绿 ),B( 蓝 ) 轴 ,组 
成 一 个 单位 正方 体 ,坐标 轴 的 原点 是 黑色 , 离 原点 最 远 的 顶点 是 白色 ,立方 体 与 三 个 轴 的 
焦点 分 别 是 紫色 、 蓝 绿色 、 黄 色 。 计 算 机 中 的 数字 图 像 一 般 是 用 RGB 颜色 模型 来 表示 的 ， 
对 于 三 个 分 量 ,单位 由 位 (bit) 来 表示 ,范围 是 0~255,RGB 模型 的 优点 是 方便 计算 机 
统计 和 存储 ,但 RGB 模型 是 颜色 分 布 最 不 均匀 的 模型 之 一 ,难以 用 距离 来 衡量 两 种 不 
同 的 颜色 ,不 符合 人 眼 的 直观 感知 ,也 就 是 给 你 一 组 RGB 数据 ,你 很 难 想 象 它 的 实际 
颜色 。 

(3) YUV 颜色 模型 。YUV 颜色 模型 又 称 YCrCb 模型 ,是 欧洲 电视 系统 所 采用 的 颜 
色 模 型 。Y 表示 亮度 信号 ,U、V 表示 色 度 信号 ,这 个 模型 也 是 根据 人 眼 对 颜色 分 辩 程 度 来 
划分 的 ,从 RGB 模型 变换 为 YUV 模型 是 线性 变换 ,公式 描述 如 下 : 


区 0. 299 0. 587 0. 114 R 
U|= | 一 00147 一 0.289 0. 436 | * 。 《7- 现 
V. 0.615 一 0.515 一 0. 100 


2. 颜色 特征 提取 

(1) 颜色 直方 图 。 颜 色 直 方 图 的 优点 在 于 它 能 简单 描述 一 幅 图 像 中 颜色 的 全 局 分 
布 , 即 不 同色 彩 在 整 幅 图 像 中 所 占 的 比例 ,特别 适用 于 描述 那些 难以 自动 分 割 的 图 像 和 不 
需要 考虑 物体 空间 位 置 的 图 像 。 该 方法 的 缺点 在 于 它 无 法 描述 图 像 中 颜色 的 局 部 分 布 及 
每 种 色彩 所 处 的 空间 位 置 , 即 无 法 描述 图 像 中 的 某 一 具体 的 对 象 或 物体 。 颜 色 直 方 图 最 
常用 的 颜色 空间 是 RGB 颜色 空间 和 HSV 颜色 空间 。 颜 色 直 方 图 特征 匹配 方法 主要 有 
直方 图 相交 法 、 距 离 法 ,中 心 距 法 、 参 考 颜色 表 法 .累加 颜色 直方 图 法 等 。 

颜色 直方 图 的 生成 是 对 于 图 像 进行 顺序 逐 行 完 全 扫描 ,记录 每 一 种 颜色 在 整个 图 像 
颜色 集中 出 现 的 次 数 ,得 出 其 出 现 的 频数 。(/。 )wxw 表 示 给 定 的 图 像 ,MX N 是 这 幅 图 像 
的 分 辨 率 ,C 表示 这 幅 图 像 的 颜色 集 , /表示 给 定点 (z,y) 处 的 颜色 值 , 则 图 像 的 色彩 直 
方 图 公式 如 下 : 


1 
MXNZ 2 co), VceEC (7-2) 


颜色 直方 图 作为 传统 的 色彩 特征 提取 方法 ,很 好 地 体现 了 色彩 特征 提取 的 优点 : 易 提 取 ， 
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易 统 计 , 对 图 像 大 小 变换 .旋转 .平移 不 敏感 。 但 色彩 直方 图 缺点 也 是 明显 的 : 丢失 色彩 
的 空间 信息 ,容易 受到 背景 噪音 影响 ,特征 维 数 高 。 因 此 很 多 基于 此 算法 的 改进 算法 被 提 
出 ,例如 将 色彩 特征 非 等 量化 为 77 维 向 量 ,忽略 了 出 现 频 度 低 以 及 人 有 眼 难 以 辨别 的 颜色 ， 
新 的 算法 使 得 直方 图 对 于 背景 噪音 的 敏感 度 降低 了 。 

(2) 累加 直方 图 。 由 于 大 多 数 的 直方 图 非常 稀疏 且 对 噪音 敏感 ,有 学 者 采用 直方 图 
的 累积 法 。 其 中 ,由 于 累加 直方 图 体现 了 两 种 颜色 在 颜色 轴 上 的 距离 与 相似 性 之 间 的 关 
系 , 所 以 累加 直方 图 法 在 检索 效率 上 优 于 一 般 直 方 图 法 。 但 累加 直方 图 能 体现 这 个 优势 
的 前 提 是 : 信号 本 身 在 特征 分 布 轴 上 距离 小 的 两 点 要 比 距 离 大 的 两 点 更 相似 。 人 的 视觉 
特性 对 上 述 相关 性 条 件 在 整个 色 度 分 布 轴 上 并 不 成 立 , 但 在 色 度 分 布 轴 上 的 各 个 局 部 区 
间 里 能 够 满足 ,所 以 我 们 把 色 度 沿 分 布 轴 分 成 若干 个 局 部 区 间 ,而 在 各 局 部 区 间 内 分 别 应 
用 累加 直方 图 法 。 

累加 直方 图 在 具体 检索 时 , 先 将 色 度 轴 分 成 六 个 不 重生 的 局 部 区 间 [60k,60(k 十 1)]， 
k 二 0,1,…,5, 然 后 分 别 计算 每 个 局 部 区 间 的 累加 直方 图 。 由 于 色 度 轴 上 各 种 颜色 的 分 布 
实际 上 是 连续 过 渡 的 ,各 颜色 区 之 间 并 不 存在 截然 的 界限 ,区 间 改 变 为 [30 十 60A， 
(30 十 60(k 十 1))mod 360],k 二 0,1,…,5, 计 算出 这 时 每 个 局 部 区 间 的 累加 直方 图 。 最 后 
将 这 两 次 计算 的 累加 直方 图 逐 项 相 加 取 平 均 , 作 为 最 终 的 特征 直方 图 用 于 检索 。 检 索 实 
验证 明 , 这 种 局 部 累加 直方 图 法 在 检索 效率 上 要 远 远 优 于 一 般 累 加 直方 图 法 。 

(3) 颜色 矩 和 颜色 集 。 除 了 颜色 直方 图 外 ,在 图 像 检 索 中 颜色 矩 和 颜色 集 也 用 于 表 
示 图 像 特征 。 

J@ 颜色 矩 。 颜 色 矩 (color moments) 最 早 是 由 Stricker 等 人 提出 的 ,一 幅 图 像 的 颜色 
信息 通常 分 布 在 低 阶 和 矩 中 ,所 以 在 实际 应 用 中 ,一 般 只 用 到 一 阶 和 矩 (mean)、 二 阶 中 心 矩 
(vanriance) 及 三 阶 中 心 矩 (skewness) 。 这 三 个 低 阶 矩 的 表达 式 为 


1 
一 二 yj 7- 
us; 而 次 (7-3) 

天 1 
大 :三 [二 站 (7-4) 
j=1 
n 1 
1 于 
6= [| ee 


心 表示 第 : 个 颜色 分 量 中 灰 度 值 为 7 的 像素 出 现 的 频 度 ,n 表示 灰 度 级 。 以 RGB 颜 
色 模 型 为 例 , 这 个 颜色 模型 具有 三 个 颜色 分 量 , 所 以 一 般 统 计 一 幅 图 像 颜色 低 阶 矩 时 ,一 
共有 3X3 二 9 个 常用 分 量 。 颜 色 矩 的 优点 是 表达 简洁 ,易于 计算 ,缺点 是 检索 效率 低 ,在 
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实际 的 应 用 中 ,颜色 矩 一 般 作 为 辅助 数据 并 联合 其 他 图 像 特征 一 起 进行 检索 工作 。 

@ 颜色 集 方法 。 为 了 提高 图 像 检索 速度 采用 颜色 集 方法 ,首先 将 RGB 颜色 空间 转 
换 成 视觉 均衡 的 颜色 空间 (HSV) ,并 将 颜色 空间 量化 成 若干 个 bin ,然后 运用 颜色 自动 分 
制 技术 将 图 像 分 为 若干 个 区 域 , 每 个 区 域 用 量化 颜色 空间 的 某 个 颜色 分 量 来 索引 ,从 而 将 
图 像 表 达成 一 个 二 进 制 的 颜色 索引 表 。 在 图 像 匹 配 中 , 比较 不 同 图 像 颜 色 集 之 间 的 距离 
和 颜色 区 域 的 空间 关系 。 因 为 ,颜色 集 表达 为 二 进 制 的 特征 向 量 ,可 以 构造 二 分 义 树 来 加 
快 检索 速度 ,对 大 规模 的 图 像 集合 十 分 有 利 。 


7.3.2 基于 纹理 特征 的 图 像 检索 

纹理 特征 是 一 种 不 依赖 于 颜色 或 亮度 的 反映 图 像 中 同 质 现象 的 视觉 特征 。 它 是 所 有 
物体 表面 共有 的 内 在 特性 ,例如 云彩 .树木 . 砖 . 织 物 动物 皮肤 等 都 有 各 自 的 纹理 特征 ( 例 
如 门禁 系统 中 指纹 识别 就 是 图 像 纹 理 特征 应 用 的 典型 例子 )。 纹 理 特 征 包 含 了 物体 表面 
结构 组 织 排列 的 重要 信息 以 及 它们 与 周围 环境 的 联系 。 正 因为 如 此 ,纹理 特征 在 基于 内 
容 的 图 像 检 索 中 得 到 了 广泛 的 应 用 ,用 户 可 以 通过 提交 包含 有 某 种 纹理 的 图 像 来 查找 含 
有 相似 纹理 的 其 他 图 像 。 

早 在 20 世纪 70 年代, 产生 了 共生 和 矩 阵 (co-occurrence matrix) 表 示 图 像 纹 理 特征 的 
方法 。 该 方法 从 数学 角度 研究 了 图 像 纹 理 中 灰 度 级 的 空间 依赖 关系 。 它 首先 建立 一 个 基 
于 像素 间 方 向 性 和 距离 的 共生 和 矩阵 ,然后 从 和 矩阵 中 提取 有 意义 的 统计 量 作 为 纹理 特征 。 
因为 图 像 中 相距 (Ax,Ay) 的 两 个 灰 度 像素 同时 出 现 的 联合 频率 分 布 可 以 用 灰 度 共生 和 矩阵 
来 表示 。 若 将 图 像 的 灰 度 级 定 为 N 级 ,那么 共生 和 矩阵 为 NXN 和 矩阵 ,可 表示 为 Maz,ay 
(x,y) ,其 中 位 于 (h,k) 的 元 素 mn 的 值 表 示 一 个 灰 度 为 h 而 男 一 个 灰 度 为 k 的 两 个 相距 
为 (Ax,Ay) 的 像素 对 出 现 的 次 数 。 

对 粗 纹理 的 区 域 ,其 灰 度 共生 和 矩阵 中 的 wn 值 较 集中 于 主 对 角 线 附 近 。 因 为 对 于 粗 纹 
理 ,像素 对 趋 于 具有 相同 的 灰 度 。 而 对 于 细 纹 理 的 区 域 ,其 灰 度 共生 和 矩阵 中 的 xx 值 则 散 
布 在 各 处 。 由 此 可 见 用 灰 度 共生 和 矩阵 的 各 种 统计 量 可 作为 纹理 特性 的 度量 。 通 常 利用 以 
下 四 个 特征 量 表示 图 像 的 纹理 特征 。 

1. 反差 (或 称 为 主 对 角 线 的 惯性 矩 ) 


CON= > 2) (mn) (7-6) 
h 天 


对 于 粗 纹理 ,由 于 wu 的 数值 较 集中 于 主 对 角 线 附近 ,此 时 hrk 的 值 较 小 ,所 以 相应 的 
CON 值 也 较 小 。 相 反 , 对 于 细 纹 理 则 相应 的 CON 值 较 大 。 
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2. 能 量 ( 或 称 为 角 二 阶 矩 ) 
ASM = >) >) (za ) (7-7) 


这 是 一 种 对 图 像 灰 度 分 布 均匀 性 的 度量 , 当 xx 的 数值 分 布 较 集 中 于 主 对 角 线 附近 
时 ,其 相应 的 ASM 值 较 大 ;反之 ,ASM 值 则 较 小 。 


3. 粹 
ENT = 3 Dm logmm (7-8) 
当 灰 度 共生 矩阵 中 各 mw 数值 相差 不 大 且 较 分 散 时 ,ENT 值 较 大 ;反之 ,车 mw 的 数 
值 较 集 中 时 ,ENT 值 较 小 。 
4. 相关 
COR = [ 5D) Dhpmn 一 py]/5.5， (7-9) 


其 中 py ,pyw6:,6, 分 别 为 m;,m, 的 均值 和 标准 差 , ms = 》)mm 是 矩阵 M 中 每 列 元 
素 之 和 ; ms = 》)mm 是 和 矩阵 M 中 每 行 元 素 之 和 。 相 关 量 是 用 来 描述 矩阵 中 行 或 列 元 素 


之 间 相 似 程度 的 , 它 是 灰 度 线性 关系 的 度量 。 

在 纹理 特征 的 提取 中 ,我 们 先 把 图 像 的 亮度 分 量 图 分 成 64 个 灰 度 级 ,并 构造 四 个 方 
向 的 共生 矩阵 即 Ma,w ,Me ,Ma,p ,Mua,-b ,然后 分 别 计算 四 个 共生 和 矩阵 的 上 述 四 个 纹 
理 参数 ,最 后 以 各 参数 的 均值 和 标准 差 即 LcoN ,6coN » JAsM * OAsM » JENT "OENT » Jcor， Scor 作 为 
纹理 特征 向 量 中 的 各 个 分 量 。 由 于 以 上 八 个 分 量 的 物理 意义 和 取 值 范围 不 同 , 需 对 它们 
进行 内 部 归 一 化 。 这 样 在 计算 相似 距离 时 ,可 使 各 分 量具 有 相同 权重 。 高 斯 归 一 化 方法 
是 一 种 较 好 的 归 一 化 方法 ,其 特点 是 少量 的 超大 或 超 小 的 元 素 值 对 整个 归 一 化 后 的 元 素 
值 分 布 影响 不 大 ,具体 方法 如 下 。 

一 个 NN 维 的 特征 向 量 可 记 为 : ==[ 记 ,fs，…,fnj。 如 用 工 ,T，,…, Tx 代表 图 像 库 
中 的 图 像 , 则 对 其 中 任 一 幅 图 像 无 ,其 相应 的 特征 向 量 为 Fi=[Lfis, fizs*", finj。 假设 
特征 分 量 值 系列 Li, fz,j， fi，…，fm;j 符 合 高 斯 分 布 ,计算 出 其 均值 m; 和 标准 差 6;, 然 
后 利用 下 式 可 将 fi; 归 一 化 至 [一 1,1j 区 间 , 公 式 如 下 : 

f= A (7-10) 

根据 上 式 归 一 化 后 ,各 个 fi;,; 均 转变 成 具有 N (0,1) 分 布 的 i? 。 如 果 利 用 6; 进行 归 
一 化 , 则 3 的 值 落 在 [一 1,1] 区 间 的 概率 可 达 99%。 实 际 应 用 中 ,将 [一 1,1] 区 间 外 的 
fi; 值 设 为 一 1 或 1, 以 保证 所 有 广 ; 的 值 均 落 在 [一 1,1] 区 间 。 
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基于 人 类 对 纹理 的 视觉 感知 的 心理 学 研究 ,可 以 从 另 一 个 角度 提出 纹理 特征 的 表达 : 
Tamura 纹理 特征 。Tamura 纹理 特征 的 六 个 分 量 对 应 于 心理 学 角度 上 纹理 特征 的 六 种 
属性 ,分 别 是 粗糙 度 (coarseness)、 对 比 度 (contrast)、 方 向 度 (directionality)、 线 像 度 
(linelikeness)、 规 整 度 (regularity) 和 粗略 度 (roughness) 。 

Tamura 纹理 特征 和 共生 和 气 阵 的 一 个 主要 不 同 是 Tamura 纹理 特征 中 的 所 有 纹理 属 
性 有 视觉 意义 ,而 共生 和 矩阵 中 的 一 些 纹理 属性 却 没 有 (如 粹 )。 这 一 特征 使 得 Tamura 纹 
理 特征 在 图 像 检索 中 很 受 欢迎 。 

20 世纪 90 年 代 初 ,由 于 小 波 变 换 的 出 现 及 其 理论 框架 的 建立 ,许多 研究 人 员 开 始 研 
究 在 纹理 表示 时 用 小 波 变 换 。 例 如 ,用 子 带 小 波 中 提取 的 统计 量 作为 纹理 特征 。 这 种 方 
法 检索 纹理 图 像 时 准确 率 超 过 90%。 为 了 提取 中 带 特征 ,可 以 采用 树 结构 小 波 变换 来 进 
一 步 提 高 分 类 的 准确 率 。 此 外 ,小 波 变换 也 常常 与 其 他 技术 结合 以 获得 更 好 的 效果 ,例如 
正 交 和 双 正 交 小波 变 换 、 树 结构 小 波 变 换 以 及 Gabor 小 波 变 换 。 


7.3.3 基于 形状 特征 的 图 像 检 索 

图 像 内 容 的 形状 是 揭示 物体 的 本 质 特征 之 一 ,可 以 针对 面积 (可 用 像素 点 的 个 数 计 
算 ) .环形 性 〈 即 周 长 X 周 长 /面积 , 周 长 也 用 像素 点 的 个 数 表示 ) .主轴 方向 、 偶 心率 、 圆 
形 率 、 连 通 性 、 正 切 角 等 形状 特征 进行 匹配 。 通 常 来 说 ,图 形 内 容 的 形状 特征 有 两 种 表示 
方法 : 一 种 是 轮廓 特征 ,一 种 是 区 域 特征 。 前 者 只 用 到 物体 的 外 边界 ,而 后 者 则 关系 到 整 
个 形状 区 域 。 这 两 类 形状 特征 的 最 典型 方法 分 别 是 傅 里 叶 描 述 符 和 形状 无 关 和 矩 。 傅 里 叶 
形状 描述 符 (Fourier shape descriptors) 的 基本 思想 是 用 物体 边界 的 傅 里 叶 变换 作为 其 形 
状 描述 。 

1. 形状 特征 提取 的 一 般 几 何 原 理 

1) 和 矩形 度 

和 矩形 度 反 映 目标 对 其 外 接 矩 形 的 充满 程度 .用 目标 的 面积 与 其 最 小 外 接 和 矩形 的 面积 
之 比 来 描述 , 即 
Ao 
A mer 

式 中 ,Ao 是 该 目标 的 面积 ,而 Aver 是 MER 的 面积 。R 的 值 为 0~1, 当 目标 为 矩形 
时 ,R 取得 最 大 值 1.0; 圆 形 目标 的 RR 取 值 为 x/4; 细 长 的 .弯曲 的 目标 的 R 取 值 变 小 。 

另外 一 个 与 形状 有 关 的 特征 是 长 宽 比 ~: 

W mer 


Lauer 


这 二 (7-11) 


(7-12) 
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7 即 为 MER 宽 与 长 的 比值 ,利用 -可 以 将 细 长 的 目标 与 圆 形 或 方形 的 目标 区 分 


开 来 。 
2) 圆 形 度 
(1) 致密 度 C。 度 量 圆 形 度 最 常用 的 是 致密 度 , 即 周 长 (P) 的 平方 与 面积 (A) 的 比 。 
C= (7-13) 


(2) 边界 能 量 玉 。 边 界 能 量 是 圆 形 度 的 男 一 个 指标 。 假 定 目 标的 周 长 为 P, 用 变量 p 
表示 边界 上 的 点 到 某 一 起 始点 的 距离 。 边 界 上 任 一 点 都 有 一 个 瞬时 曲率 半径 7(p) ,该 点 
与 边界 相 切 圆 的 半径 p 点 的 曲率 函数 是 
1 


Kp) = 元 (7-14) 
函数 K(p) 是 周期 为 P 的 周期 函数 。 可 用 下 式 计算 单位 边界 长 度 的 平均 能 量 : 
E= 站 | KCp)2 | dp (7-15) 


在 面积 相同 的 条 件 下 , 圆 具 有 最 小 边界 能 量 E。 二 (2x/P)2 二 (1/R)2, 其 中 为 圆 的 
半径 。 曲 率 可 以 很 容易 地 由 链 码 算出 ,因而 边界 能 量 也 可 方便 算出 。 瞬 时 曲率 半径 r(p) 
与 边界 能 量 示意 图 见 图 7-5。 

yh 


人 


图 7-5 瞬时 曲率 半径 ~(z) 与 边界 能 量 示意 图 


(3) 圆 形 性 。 圆 形 性 (circularity)C 是 一 个 用 区 域 R 的 所 有 边界 点 定义 的 特征 量 , 即 
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Hr 
一 < 7-16 
BR ( ) 


式 中 ,pyr 是 从 区 域 重心 到 边界 点 的 平均 距离 ,6r 是 从 区 域 重心 到 边界 点 的 距离 均 方差 : 


K—: 
A = 1 [| (zeyye) 一 (元 ,7) || (7-17) 
二 | 
| me 
6 = Kt Cxisyi) — (7) ||— yr] (7-18) 


当 区 域 RR 趋向 圆 形 时 ,特征 量 C 是 单调 递增 且 趋 向 无 穷 的 , 它 不 受 区 域 平移 、 旋 转 和 
尺度 变化 的 影响 ,可 以 推广 用 于 描述 三 维 图 像 目 标 。 

(4) 面积 与 平均 距离 平方 的 比值 。 圆 形 度 的 第 四 个 指标 利用 了 从 边界 上 的 点 到 目标 
内 部 某 点 的 平均 距离 , 即 


N 
| 
NA (7-19) 


式 中 ,zi; 是 从 具有 N 个 点 的 目标 中 的 第 i 个 点 到 与 其 最 近 的 边界 点 的 距离 。 相 应 的 
形状 度量 为 


.A MN S 
g=3 (7-20) 


3) 球状 性 | 
球状 性 (sphericity)S, 既 可 以 描述 二 维 目标 也 可 以 描述 三 维 目 标 ,其 定义 为 


= (7-21) 


在 二 维 情况 下 ,7; 代表 区 域内 切 圆 (inscribed 
circle) 的 半径 ,而 x 代表 区 域外 接 圆 (circumscribed 
circle) 的 半径 ,两 个 圆 的 圆心 都 在 区 域 的 重心 上 。 <) 
当 区 域 为 圆 时 ,球状 性 的 值 S 达到 最 大 值 1. 0， 
而 当 区 域 为 其 他 形状 时 , 则 有 S 二 1. 0。S 不 受 区 % 
域 平移 .旋转 和 尺度 变化 的 影响 。 图 像 形 状 的 球状 


性 定义 见 图 7-6 。 
4) 不 变 抵 
(1) 和 矩 的 定义 。 对 于 二 元 有 界 函 数 f(x,y)， 


它 的 Cj 十 局 阶 矩 为 图 7-6 图 像 形状 的 球状 性 定义 
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to [te | 
We 上 二 ziyf (ry)drdy JR 一 0,1,2.… (7-22) 


由 于 7 和 & 可 取 所 有 的 非 负 整数 值 , 因 此 形成 了 一 个 矩 的 无 限 集 。 而 且 , 这 个 集合 完 
全 可 以 确定 函数 /(z,y) 本 身 。 换 句 话 说 ,集合 {Mx} 对 于 函数 /zy) 是 唯一 的 ,也 只 有 
Jr,y) 才 具有 这 种 特定 的 矩 集 。 

(2) 质心 坐标 与 中 心 矩 。 当 7 一 1,A=0 时 ,Mw 对 二 值 图 像 来 讲 就 是 目标 上 所 有 点 的 
工 坐标 的 总 和 ,类 似 地 ,Mo 就 是 目标 上 所 有 点 的 > 坐标 的 总 和 ,所 以 


(7-23) 


就 是 二 值 图 像 中 一 个 目标 的 质心 的 坐标 。 
为 了 获得 矩 的 不 变 特 征 , 往 往 采用 中 心 矩 以 及 归 一 化 的 中 心 矩 。 中 心 矩 的 定义 为 


N M 
Mi = > > (z 一 zi(y 一 4FCzy) (7-24) 
z 一 1 y 一 1 
(3) 主轴 。 使 二 阶 中 心 矩 从 pa 变 得 最 小 的 旋转 角 0 可 以 由 下 式 得 出 : 
Po 2 一 (7-25) 
Hz Voz 


将 zy 轴 分 别 旋转 0 角 得 坐标 轴 x'、y', 称 为 该 目标 的 主轴 。 上 式 中 在 0 为 60" 时 的 

不 确定 性 

pao < por Hao>0 
可 以 通过 条 件 限 定 中 心 矩 来 解决 。 如 果 目 标 在 计算 矩 之 前 旋转 0 角 , 或 相对 z 与 y 轴 计 
算 和 矩 , 那 么 矩 具有 旋转 不 变性 。 

(4) 不 变 矩 。 相 对 于 主轴 计算 并 用 面积 归 一 化 的 中 心 矩 ,在 目标 放大 、 平 移 、 旋 转 时 
保持 不 变 。 只 有 三 阶 或 更 高 阶 的 矩 经 过 这 样 的 规 一 化 后 才能 保持 不 变性 。 对 于 7 十 & 一 2， 
3,4,… 的 高 阶 矩 ,可 以 定义 归 一 化 的 中 心 矩 为 

De A r= (过 和 +1) (7-26) 

利用 归 一 化 的 中 心 矩 ,可 以 获得 六 个 不 变 矩 组 合 ,这 些 组 合 对 于 平移 .旋转 .尺度 等 变 

换 都 是 不 变 的 ,不 变 矩 组 合 如 下 : 
$1 = pao 十 pos 
$2 = (p20 jay 二 dyn 


pa Gps 3p2)” | (peos 3p21)” 
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机 一 + aa) 十 《7 Fw) 
$s = (p60 — 3p212) p10 十 mas) X Lpso 二 yaa)” 二 3 | 
Fp — (pn) XL Ep) — 3 Fp) 
$e = (p20 一 poz)[L(pao 二 jizY 一 (pa 二 记 s》 + dp pao + p21) p03 + p21) 
不 变 矩 及 其 组 合 具备 了 和 良好 形状 特征 应 具有 的 某 些 性 质 ,已 经 用 于 印刷 体 字符 的 识 
别 `. 飞 机 形状 区 分 .景物 匹配 和 染色 体 分 析 中 ,但 它们 并 不 能 确保 在 任意 情况 下 都 具有 这 
些 性 质 。 一 个 目标 形体 的 唯一 性 体现 在 一 个 矩 的 无 限 集中 ,因此 ,要 区 别 相似 的 形体 需要 
一 个 很 大 的 特征 集 。 这 样 所 产生 的 高 维 分 类 器 对 噪声 和 类 内 变化 十 分 敏感 。 在 某 些 情况 
下 , 几 个 阶 数 相 对 较 低 的 矩 可 以 反映 一 个 目标 的 显著 形状 特征 。 图 像 的 形状 特征 提取 一 
般 是 针对 图 像 的 一 定 区 域 展开 的 ,图 像 的 各 个 区 域 形状 特征 组 合 为 图 像 的 整体 形状 特征 。 
区 域 形状 特征 的 提取 有 三 类 方法 : 区 域内 部 (包括 空间 域 和 变换 域 ) 形 状 特征 提取 方法 、 
区 域外 部 (包括 空间 域 和 变换 域 ) 形 状 特征 提取 方法 和 利用 图 像 层 次 型 数据 结构 提取 形状 
特征 方法 。 
5) 偏心 率 
偏心 率 (eccentricity)E, 也 可 叫 伸 长 度 (elongation), 它 在 一 定 程度 上 描述 了 区 域 的 紧 
凑 性 。 偏 心率 玉 有 多 种 计算 公式 ,一 种 常用 的 简单 方法 是 区 域 主轴 (长 轴 ) 长 度 (A) 与 辅 
轴 ( 短 轴 ) 长 度 (B) 的 比值 ,如 图 7-7 所 示 。 


图 7-7 图 像 形状 的 偏心 率 示意 图 


在 图 7-7 中 ,主轴 与 辅 轴 相互 垂直 , 且 其 长 度 是 两 方向 的 最 大 值 , 不 过 这 样 的 计算 受 
目标 形状 和 噪声 的 影响 比较 大 。 另 一 种 方法 是 计算 惯性 主轴 比 , 它 基 于 边界 线 上 的 点 或 
整个 区 域 来 计算 向 量 。 计 算 任意 点 集 偏 心 度 的 近似 公式 ,步骤 如 下 : 

第 一 步 ,计算 平均 向 量 , 公 式 如 下 : 


N N 
2 > 《2 


Sa 
ee 
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第 二 步 , 计 算 7 十 & 阶 中 心 矩 , 公 式 如 
= Day ye) (7-28) 
第 三 步 ,计算 方向 角 ， es 
0 Fan (We )+N( 至 ) (7-29) 
第 四 步 ,计算 偏心 度 的 近似 值 ,公式 如 下 : 


(Ma — Moa)’ + 4Mu 
四 A 

2. 图 像 形 状 特征 提取 的 一 般 描 述 

1) 边界 链 码 

链 码 是 对 图 像 边界 点 的 一 种 编码 表示 方法 ,其 特点 是 利用 一 系列 具有 特定 长 度 和 方 
向 的 相连 直线 段 来 表示 目标 的 边界 。 因 为 每 个 线段 的 长 度 固定 而 方向 数目 有 限 , 所 以 只 
有 边界 的 起 点 需要 用 绝对 坐标 表示 ,其 余 点 都 可 只 用 接续 方向 来 代表 偏 移 量 。 由 于 表示 
一 个 方向 的 比特 数 比 表示 一 个 坐标 值 所 需 比 特 数 少 ,而 且 对 每 一 个 点 又 只 需 一 个 方向 数 
就 可 以 代替 两 个 坐标 值 ,因此 链 码 表 达 可 大 大 减少 边界 表示 所 需 的 数据 量 。 

图 像 一 般 是 按 固定 间距 的 网 格 采集 的 (点 阵 图 像 ), 因 此 最 简单 的 链 码 是 跟踪 边界 并 
赋 给 每 两 个 相 邻 像素 连 线 为 一 个 方向 值 。 常 用 方法 的 有 4 方向 链 码 和 8 方向 链 码 ,其 方 
向 定义 分 别 如 图 7-8(a)、 图 7-8(b) 所 示 , 其 中 图 7-8(a) 为 4 方向 链 码 ;图 7-8(b) 为 8 方 
向 链 码 ; 图 7-8(c) 为 边界 编码 图 形 。 它 们 的 共同 特点 是 直线 段 的 长 度 固定 ,方向 数 有 限 。 


(7-30) 


1 3 2 1 
2 0 4 0 
3 每 6 7 


(a) (b) (c) 
图 7-8 码 值 与 方向 对 应 关系 图 


对 图 7-8(c) 所 示 边 界 , 若 设 起 始点 O 的 坐标 为 (5,5), 则 分 别 用 如 下 4 方向 和 8 方向 
链 码 表示 区 域 边界 。 
4 方向 链 码 : (5,5)1 1123232300: 
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8 方向 链 码 : (5,5)222455600。 

图 像 特征 实际 提取 中 ,直接 对 图 像 分 割 所 得 的 目标 边界 进行 编码 有 可 能 出 现 两 个 问 
题 : 一 是 码 串 比较 长 ,二 是 噪声 等 干扰 会 导致 小 的 边界 变化 从 而 使 链 码 发 生 与 目标 整体 
形状 无 关 的 较 大 变动 。 常 用 的 改进 方法 是 对 原 边 界 以 较 大 的 网 格 重新 采样 ,并 把 与 原 边 
界 点 最 接近 的 大 网 格 点 定 为 新 的 边界 点 。 这 种 方法 也 可 用 于 消除 目标 尺度 变化 链 码 的 
影响 。 

使 用 链 码 时 ,起 点 的 选择 是 很 关键 的 。 对 同一 个 边界 ,如 用 不 同 的 边界 点 作为 链 码 的 
起 点 ,得 到 的 链 码 则 是 不 同 的 。 为 解决 这 个 问题 可 把 链 码 归 一 化 ,给 定 一 个 从 任意 点 开始 
产生 的 链 码 ,可 把 它 看 做 一 个 由 各 方向 数 构成 的 自然 数 。 首 先 ,将 这 些 方向 数 按照 一 个 方 
向 循环 ,以 使 它们 所 构成 的 自然 数 的 值 最 小 ;然后 ,将 这 样 转换 后 所 对 应 的 链 码 起 点 作为 
这 个 边界 的 归 一 化 链 码 的 起 点 。 

2) 一 阶 差分 链 码 

用 链 码 表示 给 定 目标 的 边界 时 ,如 果 目 标 平移 , 链 码 不 会 发 生变 化 ,而 如 果 目 标 旋转 
则 链 码 会 发 生变 化 。 为 解决 这 个 问题 ,可 利用 链 码 的 一 阶 差 分 来 重新 构造 一 个 表示 原 链 
码 各 段 之 间 方 向 变化 的 新 序列 ,这 相当 于 把 链 码 进行 旋转 归 一 化 。 差 分 可 用 相 邻 两 个 方 
向 数 按 反 方向 相 减 (后 一 个 减 去 前 一 个 ) 得 到 。 见 图 7-9。 


(起 01 33 RS 
S38 和 3 了 3 2 


逆 时 针 旋 转 90” 


图 7-9 利用 一 阶 差分 对 链 码 旋转 归 一 化 


如 图 7-9 所 示 , 上 面 一 行为 原 链 码 ( 括 号 中 为 最 右 一 个 方向 数 循环 到 左边 ) ,下 面 一 行 
为 上 面 一 行 的 数 两 两 相 减 得 到 的 差分 码 。 左 边 的 目标 在 逆 时 针 旋 转 90 后 成 为 右边 的 形 
状 ,可 见 , 原 链 码 发 生 了 变化 ,但 差分 码 并 没有 变化 。 

3) 傅 里 叶 描述 

对 边界 的 离散 傅 里 叶 变 换 表达 ,可 以 作为 定量 描述 边界 形状 的 基础 。 采 用 传 里 叶 描 
述 的 一 个 优点 是 将 二 维 问题 简化 为 一 维 问题 。 即 将 x-y 平面 中 的 曲线 段 转化 为 一 维 函数 
Jr) (在 六 Fr) 平 面 上 ) ,也 可 将 xy 平面 中 的 曲线 段 转化 为 复 平 面 上 的 一 个 序列 。 具 体 
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就 是 将 x-y 平面 与 复 平面 vv 重合 ,其 中 , 实 部 轴 与 x 轴 重 合 , 虚 部 " 轴 与 y 轴 重 合 。 
eg en ed 丛 定 边界 上 的 每 个 点 (z,y)。 这 两 种 表示 在 本 质 上 是 


hy, 7) 
他 
二 Cy 
@ . 
i eees 
人 - 
. - 
(73509) . Ut . 
. 而 
. 
Se ° 
eeeewee 
(u, 0 


O 
图 7-10 图 像 边界 点 的 两 种 表示 方法 


如 果 一 个 由 六 个 点 组 成 的 封闭 边界 ,从 任 一 点 开始 绕 边界 一 周 就 得 到 一 个 复数 


k=0,1,. 


列 , 即 
sky = wt =0lyesN=1 (raty 
s(k) 的 离散 傅 里 叶 变 换 是 
S(w) = sexp(-i 人)， w=0,1,. ,N—1 (7-32) 
SCw) 可 称 为 边界 的 传 里 叶 描述 ， 它 的 傅 里 叶 逆 变 换 是 
SR = ND se (- A )， 二 (7-33) 
可 见 ,离散 传 里 叶 变换 是 个 可 逆 线 性 变换 ,在 变换 过 程 中 信息 没有 任何 增 减 ,但 
有 选择 地 描述 边界 提供 了 方便 。 只 取 S(w) 的 前 M 个 系数 即 可 得 到 (CR) 的 一 个 近似 : 
:N= (7-34) 


2rok ) 


5(k) 一 襄 svewp(-j 加 , 

上 式 中 & 的 范围 不 变 , 即 在 近似 边界 上 的 点 数 不 变 ,但 w 的 范围 缩小 了 , 即 为 重建 边 
界 点 所 用 的 频率 项 少 了 。 傅 里 叶 变 换 的 高 频 分 量 对 应 一 些 图 像 形状 细节 而 低频 分 量 对 应 
像 总 体形 状 ,因此 用 一 些 低频 分 量 的 传 里 叶 系数 足以 近似 描述 边界 形状 。 


3. 图 像 形状 特征 提取 的 研究 进展 
近年 来 ,在 形状 表示 和 匹配 方面 的 工作 包括 有 限 元 方法 (FEM) .旋转 函数 和 小 波 描 
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述 符 。FEM 定义 一 个 稳定 性 矩阵 来 描述 物体 上 的 每 一 个 点 与 其 他 点 之 间 的 联系 。 这 个 
稳定 性 矩阵 的 特征 向 量 被 称 为 特征 空间 的 模 合 基 。 所 有 的 形状 都 首先 被 映射 到 该 空间 并 
通过 特征 值 计 算 相 似 度 。 类 似 于 传 里 叶 描述 的 思路 .例如 把 旋转 函数 用 来 比较 上 四面 和 凸 
面 多 边 形 的 相似 性 。 用 小 波 变换 来 描述 物体 形状 。 它 几乎 包含 了 符合 要 求 的 所 有 性 质 ， 
如 多 分 辨 率 表示 ,不 变性 .单一 性 、 稳 定性 和 空间 位 置 等 。 就 形状 匹配 算法 而 言 ,Chamfer 
匹配 方法 有 较 多 成 果 ;Chamfer 匹配 技术 ,该 方法 能 够 以 线性 的 时 间 复 杂 度 比较 两 个 的 形 
状 块 集合 ;分 层 Chamfer 匹配 算法 可 以 加 快 匹配 的 速度 ,这 种 匹配 算法 可 以 在 不 同 的 精确 
层次 上 进行 ,逐步 从 粗糙 到 精确 。 

另外 几何 矩 方法 (基于 区 域 ) 和 傅 里 叶 描述 符 ( 基 于 边缘 ) 通 过 一 种 简单 的 线性 变换 联 
系 起 来 。 综 合 表示 法 基于 某 些 特征 ( 链 编码 、 傅 里 叶 描 述 符 .UNL 传 里 叶 描述 符 ) 的 边缘 
表示 法 的 效果 ,基于 另 一 些 特征 (和 矩 无 关 性 、Zernike 矩 . pseudo-Zernike 和 矩 ) 的 区 域 表 示 法 
的 效果 以 及 综合 表示 法 ( 矩 无 关 性 和 UNL 傅 里 叶 描述 符 、 矩 无 关 性 和 傅 里 叶 描 述 符 ) 。 
实验 表明 ,综合 表示 法 要 优 于 单一 的 描述 。 

除了 二 维 形状 表示 法 外 ,三 维 形状 特征 表示 的 方法 也 很 多 。 傅 里 叶 描 述 符 的 标准 方 
法 , 它 包含 了 所 有 形状 信息 而 且 计算 高 效 ,利用 傅 里 叶 描 述 符 的 良好 插 补 能 力 来 有 效 地 表 
示 三 维 空间 中 的 形状 。 也 有 兼顾 结构 和 统计 方法 的 局 部 形状 分 析 算 法 来 表示 三 维 形状 特 
征 。 此 外 ,用 代数 无 关 矩 来 同时 表示 二 维 空间 的 形状 特征 和 三 维 空间 的 形状 特征 ,这 大 大 
地 减少 了 形状 匹配 的 计算 量 。 


7.3.4 基于 空间 特征 的 图 像 检索 

上 述 的 颜色 纹理 和 形状 等 多 种 特征 反映 的 都 是 图 像 的 整体 特征 ,而 无 法 体现 图 像 中 
所 包含 的 对 象 或 物体 。 事实 上 .图 像 中 对 象 所 在 的 位 置 和 对 象 之 间 的 空间 关系 同样 是 图 
像 检 索 中 非常 重要 的 特征 。 打 个 比方 , 蓝 色 的 天 空 和 蔚蓝 的 海洋 在 颜色 直方 图 上 是 非常 
接近 而 难以 辨别 的 。 但 如 果 我 们 指明 是 “处 于 图 像 上 半 部 分 的 蓝 色 区 域 ”, 则 一 般 来 说 就 
可 以 区 分 天 空 和 海洋 。 由 此 可 见 , 包 含 空间 关系 的 图 像 特征 对 图 像 检索 有 很 大 帮助 。 

图 像 空 间 关系 特征 是 指 图 像 中 分 割 出 来 的 多 个 目标 之 间 相 互 的 空间 位 置 或 相对 方向 
关系 ,这 些 关系 也 可 分 为 连接 /邻接 关系 、 交 硅 / 重 大 关系 和 包含 /包容 关系 等 。 通 常 空 间 
位 置信 息 可 以 分 为 两 类 : 相对 空间 位 置信 息 和 绝对 空间 位 置信 息 。 前 一 种 关系 强调 的 是 
目标 之 间 的 相对 情况 ,如 上 下 左右 关系 等 ,后 一 种 关系 强调 的 是 目标 之 间 的 距离 大 小 以 及 
方位 。 显 而 易 见 ,由 绝对 空间 位 置 可 推出 相对 空间 位 置 ,但 表达 相对 空间 位 置信 息 比 较 
简单 。 
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空间 关系 特征 的 使 用 可 加 强 对 图 像 内 容 的 描述 区 分 能 力 , 但 空间 关系 特征 常 对 图 像 
或 目标 的 旋转 、 反 转 、 尺 度 变 化 等 比较 敏感 。 另 外 ,实际 应 用 中 ,仅仅 利用 空间 信息 往往 是 
不 够 的 ,不 能 有 效 准 确 地 表达 场景 信息 。 为 了 进行 准确 的 图 像 检 索 ,除了 使 用 空间 关系 特 
征 外 ,还 需要 其 他 特征 来 配合 。 

图 像 空间 关系 特征 提取 方法 可 分 为 两 类 : 一 类 方法 是 首先 对 图 像 进 行 自 动 分 割 , 划 
分 出 其 中 所 含 的 对 象 或 颜色 区 域 , 然 后 根据 这 些 区 域 对 图 像 索 引 ; 另 一 类 方法 则 简单 地 将 
图 像 均 匀 划 分 成 若干 规则 子 块 ,对 每 个 图 像 子 块 提取 特征 建立 索引 。 基 于 图 像 分 割 方法 
中 的 图 像 空间 关系 特征 主要 包括 二 维 符号 串 、 空 间 四 又 树 和 符号 图 像 ; 基 于 图 像 子 块 的 方 
法 将 图 像 预先 等 分 成 若干 子 块 ,然后 分 别提 取 每 个 子 块 的 各 种 特征 。 


7.3.5 单个 特征 图 像 检 索 的 不 足 

基于 图 像 颜色 特征 的 索引 存在 的 主要 问题 是 人 对 颜色 特征 的 视觉 感知 方面 考虑 得 仍 
然 不 够 ,虽然 目前 大 多 数 基 于 颜色 特征 的 图 像 检 索 采 用 了 和 人 对 颜色 感知 相 一 致 的 HIS 
颜色 空间 ,但 关于 两 种 颜色 之 间 的 相似 度 的 定义 和 视觉 上 人 对 相似 颜色 的 判定 仍然 有 一 
定 的 差距 。 从 颜色 特征 的 表示 来 看 ,各 种 形式 的 颜色 直方 图 是 最 常用 的 表示 方法 。 从 颜 
色 特 征 的 相似 形 提取 角度 来 检索 两 幅 图 像 , 一 般 指 定 相 同 并 采用 几 十 到 几 百 维 的 高 维 直 
方 图 ,实际 上 人 对 两 图 像 画 面 的 颜色 的 相似 性 判定 主要 考虑 少数 几 种 主要 的 颜色 。 不 同 的 
图 像 有 不 同 的 颜色 集 , 对 包含 不 同 颜色 集 的 两 图 像 之 间 的 相似 性 判定 仍然 需要 进一步 研究 。 

基于 图 像 纹理 特征 的 索引 目前 存在 的 主要 问题 是 各 种 方法 所 选择 的 纹理 特征 集 依赖 
于 具体 的 纹理 图 像 ,往往 是 一 种 方法 所 选择 的 纹理 特征 集 对 表达 一 个 纹理 图 像 数 据 库 比 
较 有 效 , 但 对 另 一 个 纹理 图 像 数 据 库 来 说 就 不 一 定 管用 。 对 于 不 同 的 纹理 图 像 数 据 库 如 
何 进行 纹理 特征 集 的 自动 匹配 运算 仍 需 要 进一步 研究 .也 就 是 基于 图 像 纹理 特征 的 图 像 
检索 技术 的 通用 性 研究 依然 是 个 难点 问题 。 

对 于 形状 特征 的 图 像 检 索 ,形状 边界 的 自动 提取 一 直 是 困扰 图 像 处 理 领域 多 年 的 难 
题 。 形 状 特征 提取 是 一 件 非常 繁重 的 工作 ,对 于 大 批量 图 像 数据 , 此 问题 将 显得 更 为 突 
出 。 各 种 形状 特征 表达 方法 对 形状 信息 的 丢失 非常 严重 ;只 有 少量 的 形状 特征 表达 方法 
和 形状 的 几何 变换 无 关 。 另 外 形状 度量 方法 仍 不 具有 很 好 的 形状 区 分 能 力 ,不 能 有 效 表 
达 形 状 之 间 的 相似 性 。 研 究 形状 特征 检索 仍 是 基于 内 容 检索 中 较 具 有 挑战 性 的 研究 
课题 。 

基于 空间 关系 的 索引 存在 的 主要 问题 是 如 何 保证 各 种 空间 关系 与 图 像 的 旋转 无 关 ， 
如 何 实现 空间 特征 的 相似 度量 从 定性 到 定量 的 转变 ,目前 仍 没 有 很 好 的 研究 成 果 。 在 图 
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像 多 重 特征 的 相关 反馈 检索 中 ,由 于 不 同 的 特征 其 度量 空间 是 不 一 样 的 ,如 何 将 这 些 距离 
转变 为 图 像 之 间 的 相似 度量 空间 并 能 准确 地 表示 人 对 图 像 之 间 的 相似 性 认识 ,是 非常 难 
的 一 件 事 情 。 总 而 言 之 ,采用 单一 的 图 像 特征 向 量 对 图 像 数据 库 进 行 查询 不 能 很 好 地 
解决 查询 中 准确 率 和 查询 效率 之 间 的 矛盾 ,如 果 采 用 高 维 数 的 特征 向 量 又 会 降低 查询 
的 效率 ,采用 低 维 数 的 特征 向 量 会 降低 查询 的 准确 率 ,因此 可 综合 利用 多 特征 进行 图 像 
检索 。 


7.4 基于 多 特征 的 图 像 检索 


鉴于 利用 图 像 单 个 特征 检索 的 缺点 ,可 以 综合 利用 图 像 的 颜色 纹理 ,形状 和 空间 特 
征 的 方法 ,计算 特征 提取 向 量 。 用 户 可 以 根据 需要 调整 各 个 特征 之 间 的 权重 关系 ,以 便 满 
足 不 同 应 用 情况 的 查询 。 


7.4.1 综合 颜色 和 形状 特征 的 图 像 检 索 

颜色 和 形状 是 图 像 重 要 的 特征 之 一 ,而 颜色 直方 图 没有 考虑 所 含 对 象 的 形状 特征 , 形 
状 特征 没有 完善 的 数学 模型 ,为 了 弥补 二 者 的 不 足 ,我 们 可 以 通过 结合 颜色 直方 图 的 相似 
度 和 边界 方向 直方 图 的 相似 度 进行 检索 。 设 m 为 查询 图 像 ,n 为 数据 库 中 的 图 像 集 合 ， 
D, 代表 基于 颜色 直方 图 的 相似 度 , D 代表 基于 边界 方向 直方 图 的 相似 度 。 则 两 幅 图 像 
间 的 相似 性 如 下 计算 : 
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通过 实验 验证 ,综合 颜色 和 形状 特征 比 使 用 单个 特征 确实 提高 了 检索 正确 率 。 通 过 
二 者 结合 ,不 仅 完全 克服 了 到 加 噪声 的 影响 ,而 且 提高 了 旋转 变化 时 的 稳定 性 。 两 幅 不 同 
的 图 像 有 可 能 会 有 相似 的 颜色 直方 图 或 边界 直方 图 ,但 同时 具有 相似 的 两 种 直方 图 的 概 
率 较 小 , 即 综合 检索 可 以 减少 误 匹 配 ,从 而 提高 检索 的 精确 度 和 准确 率 。 


7.4.2 综合 形状 和 空间 特征 的 图 像 检索 

目前 ,颜色 的 空间 索引 技术 有 两 种 : 基于 图 像 空间 的 固定 划分 方法 和 基于 像素 颜色 
的 空间 相关 性 的 聚 类 方法 。 综 合 形状 特征 和 空间 位 置 关 系 特征 可 以 较 好 地 处 理 一 些 二 值 
图 像 。 由 于 二 值 属 于 人 工 图 像 ,例如 二 值 商标 图 像 ,部 分 二 值 图 像 是 由 一 些 边界 分 明 的 几 
何 形状 体 构 成 的 ,因此 可 把 一 些 二 值 图 像 看 做 是 由 一 些 具有 显著 形状 特征 的 区 域 构成 的 
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集合 体 ,对 这 些 集合 体 首先 利用 矩形 特征 进行 形状 的 相似 性 度量 ,然后 利用 投影 分 类 的 方 
法 匹配 空间 位 置 关系 。 该 方法 既 考 虑 了 二 值 图 像 内 部 各 组 成 部 分 的 形状 特征 ,又 兼顾 了 
它们 之 间 的 空间 位 置 关系 ,将 整个 检索 过 程 分 为 初级 检索 与 高 级 检索 反馈 求 精 两 个 阶段 。 
由 于 该 方法 保证 了 整体 与 局 部 的 一 致 性 ,因此 具有 良好 的 检索 精度 ,与 只 利用 图 像 的 形状 
特征 进行 检索 的 实验 结果 相 比 ,其 检索 结果 更 加 符合 人 的 视觉 感知 特性 。 


7.4.3 综合 形状 和 纹理 特征 的 图 像 检 索 

纹理 特征 是 一 种 统计 特征 ,具有 旋转 不 变性 ,并 具有 较 强 的 抗 噪音 能 力 。 由 于 纹理 不 
能 单纯 地 由 颜色 或 密度 得 到 , 它 不 能 反映 出 事物 的 本 质 属性 , 受 图 像 的 分 辨 率 影响 很 大 ， 
易 受 到 光照 、 反 射 的 影响 。 图 像 的 形状 信息 不 随 图 像 颜 色 的 变化 而 变化 ,是 物体 稳定 的 特 
征 。 利 用 形状 特征 进行 检索 可 提高 检索 的 准确 性 和 效率 。 但 是 基于 形状 的 检索 法 缺乏 比 
较 完善 的 数学 模型 ,目标 物体 发 生变 形 时 检索 结果 不 可 靠 , 全 面 的 描述 目标 形状 对 计算 和 
存储 有 较 大 的 要 求 。 将 形状 特征 和 图 像 纹理 特征 相 结合 ,同时 利用 半自动 的 图 像 分 割 技 
术 提 取 图 像 边缘 区 域 。 在 检索 过 程 中 ,假设 使 用 形状 特征 进行 检索 和 纹理 特征 的 排序 位 
咎 分 别 为 rt 和 7x, 则 综合 特征 的 排序 位 置 为 (mi 十 r)/2。 通 过 实验 ,这 种 方法 的 查 全 率 和 
查 准 率 较 使 用 单一 特征 要 高 。 


7.4.4 ”综合 颜色 、 形 状 和 空间 的 图 像 检 索 

通常 首先 通过 颜色 特征 发 现 物体 ,然后 通过 它们 的 形状 、 纹 理 和 拓扑 关系 等 特征 来 进 
一 步 识别 物体 。 当 图 像 中 有 明显 物体 出 现时 ,图 像 的 内 容 可 以 由 这 些 物体 的 颜色 .位置 和 
形状 等 特征 表示 。 综 合 颜色 .形状 和 空间 的 图 像 检 索 的 过 程 分 为 三 步 : 首先 对 图 像 进行 
分 割 , 得 到 主要 物体 所 占 的 区 域 ; 然 后 对 每 一 块 区 域 提取 各 自 的 颜色 .位 置 和 形状 等 特征 
作为 检索 对 象 的 特征 ;最 后 根据 图 像 中 各 对 象 的 特征 计算 来 确定 两 幅 图 像 间 内 容 的 相似 
程度 。 

在 实际 应 用 中 ,综合 利用 颜色 纹理、 形状 和 空间 关系 等 不 同 特征 进行 检索 有 许多 优 
点 。 首 先 ,可 以 达到 不 同 特征 的 优势 互补 的 效果 。 在 颜色 特征 的 基础 上 加 上 形状 特征 不 
仅 能 描述 图 像 的 整体 颜色 性 质 , 还 可 以 描述 目标 图 像 局 部 的 颜色 性 质 ,而 在 颜色 特征 的 基 
础 上 加 上 空间 关系 特征 能 较 好 地 表达 景物 的 结构 而 且 相 当 直 观 。 其 次 ,可 以 提高 检索 的 
灵活 性 和 系统 的 性 能 以 满足 某 些 实际 应 用 场合 的 需要 。 综 合 相似 性 采用 下 式 计 算 : 
awecS。 十 wrS- 十 osS， 

we 二 十 却 ; 


S= (7=36) 
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其 中 ,w.、wr、w; 分 别 为 颜色 ,形状 和 空间 的 加 权 ,S-.、S-、S, 分 别 为 颜色 .形状 和 空间 的 
相似 度 。 


7.5 基于 视觉 特征 的 图 像 检索 系统 


基于 视觉 特征 的 图 像 检索 能 够 自动 提取 每 幅 图 像 的 视觉 特征 作为 其 索引 ,如 色彩 、 纹 
理 和 形状 等 ,查询 将 根据 图 像 视觉 特征 进行 相似 性 计算 。 用 户 通 过 选择 具有 代表 性 的 一 
幅 或 多 幅 用 例 图 像 来 构造 查询 ,然后 由 系统 查找 与 用 例 图 像 在 视觉 内 容 上 比较 相似 的 图 
像 , 按 相似 性 大 小 排序 返回 给 用 户 。 男 外 ,基于 视觉 特征 的 图 像 检 索 系 统一 般 还 可 以 通过 
可 视 化 界面 和 用 户 进行 实时 交互 ,便于 用 户 构 造 查 询 、 评 估 和 改进 检索 结果 。 


7.5.1 基于 视觉 特征 的 图 像 检索 系统 整体 架构 

图 7-11 是 基于 视觉 特征 的 图 像 检 索 系 统 的 总 体 架 构 。 系 统 的 主要 模块 包括 图 像 分 
割 模块 特征 选择 抽取 模块 、 索 引 模 块 、 特 征 向 量 索 引 库 、 用 户 界面 .图 像 检索 模块 .相似 性 
度量 模块 相关 反馈 模块 和 显示 模块 。 


显示 模块 - 


图 像 检 索 
用 户 界 面 模块 


相似 性 |_| ”相关 
度量 模块 || 反馈 模块 


机 


图 像 库 - 


(1) 图 像 分 割 模块 。 基 于 视觉 特征 的 图 像 检 索 系统 可 以 直接 抽取 整 幅 图 像 的 视觉 特 
征 进行 相似 性 计算 ,也 可 以 先 将 图 像 分 割 成 一 些 有 意义 的 区 域 后 再 抽取 区 域 的 视觉 特征 
进行 相似 性 计算 。 

(2) 特征 选择 抽取 模块 。 特 征 选择 抽取 模块 主要 根据 选择 的 特征 ,进行 相关 的 图 像 
颜色 、 纹 理 和 形状 等 视觉 特征 的 自动 抽取 ,为 相似 性 度量 做 准备 。 

(3) 索引 模块 。 为 了 减少 检索 图 像 的 响应 时 间 ,索引 模块 对 抽取 的 图 像 特征 向 量 建 


像 分 割 | | 特征 选择 | | 。 特征 向 量 
模块 - 抽取 模块 - 案 引 措 亿 - 索引 库 


图 7-11 基于 视觉 特征 的 图 像 检索 系统 的 总 体 架构 
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立 索 引 。 索 引 模块 不 仅 可 以 自动 建立 索引 ,而 且 可 以 对 索引 进行 动态 管理 。 

(4) 特征 向 量 索引 库 。 特 征 向 量 索引 库 是 存储 和 管理 特征 索引 的 模块 ,可 以 采用 关 
系数 据 库 实 现 特征 向 量 索 引 库 的 管理 。 

(5) 用 户 界 面 。 用 户 界 面 的 主要 功能 是 为 用 户 提供 功能 强大 的 搜索 表达 机 制 和 灵活 
的 搜索 方式 。 

(6) 图 像 检索 模块 。 图 像 检索 模块 的 主要 功能 是 根据 用 户 选择 的 查询 实例 ,调用 特 
征 抽取 模块 ,抽取 实例 图 像 的 特征 向 量 , 供 相似 性 度量 模块 使 用 。 

(7) 相似 性 度量 模块 。 相 似 性 度量 模块 将 查询 实例 的 特征 向 量 与 索引 库 中 的 图 像 特 
征 向 量 进 行 相似 性 计算 ,并 根据 相似 性 的 大 小 排序 。 该 模块 还 根据 相关 反馈 信息 ,重新 调 
整 参数 来 计算 相似 性 ,以 获得 更 加 符合 用 户 需求 的 查询 图 像 。 

(8) 相关 反馈 模块 。 相 关 反 馈 模块 提供 人 机 交互 的 接口 ,模块 将 用 户 对 查询 结果 
的 反馈 信息 返回 给 相似 性 度量 模块 。 通 过 多 次 的 人 机 交互 与 学 习 对 话 , 提 高 检索 的 
精度 。 

(9) 显示 模块 。 显 示 模 块 实现 查询 结果 的 显示 ,本 模块 根据 相似 性 度量 和 相关 反馈 
的 结果 ,找到 原始 图 像 ,采用 依据 相似 性 排序 和 缩 略图 的 方式 ,以 图 像 列 表 或 图 像 反馈 网 
页 的 形式 将 结果 展现 给 用 户 。 


7.5.2 图 像 分 割 技术 

图 像 分 割 是 把 图 像 中 互 不 相交 ,具有 特殊 含义 的 区 域 区 分 出 来 。 每 个 区 域内 的 像素 
属性 满足 一 定 的 一 致 性 ,如 灰 度 值 相近 或 纹理 特征 相似 等 。 图 像 分 割 是 图 像 理解 的 关键 
步骤 ,尽管 已 经 有 了 许多 分 割 方 法 ,但 是 到 目前 为 止 还 不 存在 一 种 通用 的 方法 ,同时 也 没 
有 一 个 判断 分 割 质量 的 标准 ,因为 分 割 与 人 的 主观 认识 有 密切 联系 ,被 认为 是 计算 机 视觉 
图 像 处 理 中 的 一 个 瓶颈 技术 。 

1. 图 像 分 割 的 概念 

图 像 分 割 是 指 把 图 像 分 解 成 各 具 特 性 的 区 域 并 提取 出 感 兴趣 目标 的 技术 和 过 程 。 图 
像 分 割 一 般 定义 为 : 设 1 为 一 幅 图 像 ,H 是 一 个 衡量 像素 属性 一 致 性 的 函数 , 它 的 取 值 为 
两 个 : true 或 false, 那 么 图 像 分 割 就 是 把 图 像 I 分 成 n 个 区 域 R; 二 (i 二 1,2,…,n) ,满足 : 


GD UR=L. 


(2) 如 果 ;j ,那么 有 R; [Ri。 
(3) H(R;)=true, i=1,2,.° ,Nn。 
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(4) 对 所 有 相 邻 的 区 域 Ri 与 Rj,H (Ri R;)=false。 

由 分 割 的 定义 可 知 : 条 件 (1) 和 (2) 指 出 分 割 是 把 整 幅 图 像 分 成 一 些 互 不 相交 的 区 
域 ,并 且 这 些 区 域 的 并 集 是 整 幅 图 像 ; 条 件 (3) 指 出 每 个 区 域内 部 的 像素 满足 一 定 的 属性 
一 致 性 ,条 件 (3) 指 出 根据 给 定 的 属性 一 致 性 判断 函数 瓦 ,任何 两 个 相 邻 的 区 域 不 可 能 合 
并 成 一 个 区 域 。 

2. 图 像 分 割 算 法 

对 图 像 分 割 算 法 的 研究 已 经 开展 了 几 十 年 ,至 今 借助 于 各 种 理论 已 经 提出 了 许多 分 
割 算法 ,而 且 这 方面 的 研究 仍然 在 积极 推进 。 目 前 已 经 提出 的 分 割 算法 大 都 针对 具体 的 
图 像 问题 , 并 没有 一 种 适合 于 所 有 图 像 的 通用 分 割 算法 。 实 际 上 由 于 不 同 领 域 的 图 像 千 
差 万 别 , 也 不 太 可 能 存在 万 能 的 通用 算法 。 图 像 的 分 割 算法 非常 多 ,大 体 上 可 以 分 为 以 下 
几 类 。 

1) 基于 空间 特征 的 分 割 方法 

这 类 方法 的 思想 是 : 由 于 分 割 过 程 中 考察 的 图 像 像素 总 具有 一 定 的 特征 ,因而 可 以 
把 这 些 像素 映射 为 一 定 特征 空间 中 的 点 ,从 而 将 图 像 分 割 转 化 为 特征 空间 中 点 的 分 类 问 
题 。 常 用 的 分 类 手段 包括 阔 值 化 分 割 方法 和 特征 空间 聚 类 方法 。 

(1) 阅 值 化 分 割 方法 。 阅 值 化 分 割 方法 已 经 有 几 十 年 的 历史 ,是 图 像 分 割 领域 中 较 
早出 现 的 一 类 方法 ,也 是 最 基本 的 方法 ,在 灰 度 图 像 的 分 析 和 识别 中 起 着 重要 的 作用 。 其 
目的 是 按照 图 像 的 灰 度 级 ,将 图 像 空间 划分 成 与 现实 景物 相对 应 的 一 些 有 意义 的 区 域 。 
各 个 区 域内 部 灰 度 级 是 均匀 的 ,而 相 邻 区 域 之 间 的 灰 度 级 是 不 同 的 ,其 间 存 在 着 边界 。 

阔 值 化 分 割 技术 有 单 冰 值 分 割 和 多 阔 值 分 割 。 单 冰 值 分 割 就 是 设 定 一 个 灰 度 阔 值 
工 ,对 于 一 幅 灰 度 图 像 /(x,y) ,将 图 像 中 的 像素 分 成 两 类 : 满足 FCz,y) 二 T 和 Jz,y) 反 
工 , 一 类 称 为 目标 , 另 一 类 称 为 背景 。 这 种 分 割 技术 在 机 器 视觉 文字 识别 .生物 医学 图 像 
分 析 、 指 纹 与 印章 鉴定 、 光 学 条 纹 判读 以 及 军事 目标 识别 等 领域 应 用 较为 普遍 。 更 一 般 
地 ,多 阀 值 分 割 则 选择 多 个 阔 值 ,把 整个 灰 度 范围 划分 成 几 个 段 , 隶 属于 每 个 段 内 的 像素 
成 为 一 类 ,这 样 就 将 图 像 分 割 成 多 个 灰 度 不 同 的 区 域 。 显 然 , 单 阔 值 分 割 是 多 阔 值 分 割 的 
一 种 特殊 情形 。 

阅 值 化 分 割 技术 分 为 两 个 步骤 : 首先 是 确定 合适 的 或 者 是 最 佳 的 阔 值 ,然后 将 图 像 
像素 的 灰 度 和 浆 值 进行 比较 ,进而 确定 每 个 像素 所 属 的 类 。 显 然 ,合适 阀 值 的 确定 是 难点 
和 关键 。 阅 值 化 分 割 技术 中 的 各 种 各 样 的 算法 大 多 围绕 着 闷 值 如 何 选 取 来 展开 。 立 值 化 
分 割 技术 中 主要 的 算法 包括 : 直方 图 方法 和 直方 图 变换 法 、 最 大 类 间 方 差 法 、 最 小 误差 法 
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与 均匀 化 误差 法 、 最 大 焙 方 法 、 模 糊 集 方法 、 局 部 阔 值 分 割 与 动态 阔 值 分 割 及 其 二 维 阔 值 
化 方法 。 

阅 值 化 分 割 技术 比较 简单 直观 ,但 它 对 噪声 影响 敏感 。 例 如 ,在 噪声 比较 严重 的 时 
候 , 直 方 图 中 甚至 会 出 现 虚 假 波峰 或 波 谷 ,导致 最 终 的 结果 出 现 明显 误差 。 为 了 克服 这 一 
问题 ,在 对 图 像 进行 直方 图 国 值 分 析 前 ,往往 需要 采取 适当 的 去 噪 措施, 这 又 带 来 了 额外 
的 工作 。 另 外 ,由 于 直方 图 并 不 包含 空间 信息 ,所 以 这 类 方法 往往 对 图 像 空域 相关 性 和 连 
续 性 缺乏 考虑 ,以 至 于 分 割 结果 的 空间 紧凑 性 一 般 较 差 。 

(2) 特征 空间 聚 类 方法 。 特 征 空间 聚 类 技术 不 需要 训练 样本 ,是 一 种 无 监督 的 全 局 
分 类 方法 。 其 中 ,均值 聚 类 算法 最 为 经 典 , 它 不 仅 应 用 于 图 像 分 割 , 还 广泛 应 用 到 矢量 
量化 和 数据 压缩 中 。 另 一 种 常用 的 色彩 空间 聚 类 方法 是 ISODAT (interactive self- 
organizing data analysis technique) 聚 类 , 它 是 在 -均值 聚 类 算法 基础 上 发 展 起 来 的 聚 类 
方法 。 在 经 典 &- 均 值 聚 类 的 基础 上 ,将 图 像 局 部 的 自 适应 性 和 空间 连续 性 结合 起 来 ,形成 
了 另 一 类 非常 重要 的 聚 类 方法 一 一 自 适应 -均值 聚 类 算法 。 

总 的 来 看 ,特征 空间 聚 类 技术 也 存在 一 些 不 足 : @ 无 论 是 -均值 聚 类 算法 还 是 所 派 
生出 的 其 他 方法 ,都 存在 初始 的 个 中 心 (或 均值 点 ) 的 选取 问题 ,不 恰当 的 初始 点 可 能 使 
最 终 的 聚 类 结果 很 不 理想 ; @ 绝 大 多 数 的 聚 类 算法 没有 很 好 地 考虑 像素 的 空间 位 置 和 像 
素 特 征 的 空域 相关 性 、 连 续 性 ,因而 分 割 结果 在 空间 分 布 上 往往 不 够 紧凑 ; 四 自 适 应 
k- 均 值 聚 类 算法 在 一 定 程度 上 克服 了 空间 问题 ,但 其 计算 复杂 性 比较 高 。 

2) 基于 图 像 域 的 分 割 方法 

基于 特征 空间 的 分 割 方法 对 空域 连续 性 和 相关 性 缺乏 考虑 ,分 割 结果 的 连通 性 通常 
不 是 很 理想 ,需要 后 续 处 理 措施 来 改善 连通 性 。 连 通 性 作为 分 割 必须 满足 的 条 件 之 一 ,更 
好 的 方式 是 在 分 割 的 过 程 中 就 子 以 充分 考虑 。 由 于 对 象 表面 的 连续 性 ,同一 对 象 的 像素 
点 在 空间 分 布 上 往往 很 相近 。 基 于 这 一 事实 ,就 必须 综合 考虑 图 像 区 域 色彩 、 纹 理 等 特征 
的 一 致 性 和 空域 分 布 的 连续 性 与 相关 性 ,基于 图 像 域 的 分 割 方法 就 是 基于 上 述 思 想 提 出 
来 的 。 根 据 所 采用 的 空间 分 组 策略 的 不 同 , 可 以 把 这 一 类 方法 细 分 为 分 裂 -合并 技术 、 区 
域 生 长 技术 、 基 于 区 域 边缘 检测 的 技术 。 

(1) 分 裂 -合并 技术 。 分 裂 -合并 策略 的 分 割 算 法 一 般 都 是 以 一 个 不 具有 特征 一 致 性 
和 空间 连续 性 的 图 像 ( 常 常 是 原 图 本 身 ) 作 为 初始 划分 ,反复 进行 分 裂 过 程 , 直 到 分 裂 出 的 
区 域 都 满足 一 致 性 要 求 ; 然 后 再 执行 合并 过 程 , 合 并 那些 被 过 度 分 割 的 区 域 ,从 而 得 到 最 
终 的 分 割 结 果 。 分 裂 阶段 常 以 四 又 树 为 数据 结构 ;而 合并 阶段 则 常 以 区 域 邻接 关系 图 
RAG(region adjacency graph) 为 数据 结构 。 
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分 裂 -合并 策略 的 分 割 算法 一 般 都 需要 根据 图 像 的 统计 特性 设 定 图 像 区域 特 征 的 一 
致 性 测度 以 确定 对 一 个 区 域 是 应 该 分 裂 还 是 合并 ,或 者 停止 操作 。 其 中 最 常用 的 做 法 是 
基于 色彩 的 统计 特性 ,例如 同 质 区 域 中 的 方差 (variance within homogeneous regions， 
VWHR) ,算法 根据 VWHR 的 数值 来 确定 合并 或 分 裂 各 个 区 域 。VWHR 会 受到 图 像 噪 
声 的 影响 ,为 了 得 到 正确 的 分 割 结果 ,就 需要 根据 图 像 中 的 噪声 水 平 来 选 VWHR。 但 图 
像 的 噪声 水 平一 般 很 难 准 确 测定 ,所 以 VWHR 常 根 据 先 验 知识 或 噪声 估计 来 选 定 , 它 的 
选择 精度 对 算法 性 能 的 影响 很 大 。 另 外 还 可 以 借助 区 域 的 边缘 信息 来 确定 是 否 对 其 进行 
合并 或 者 分 裂 , 但 其 分 割 结果 同样 易 受 噪声 的 干扰 。 

(2) 区 域 生 长 技术 。 区 域 生长 技术 的 基本 思想 是 : 逐个 扫描 图 像 中 的 像素 点 , 找 出 尚 
未 归 类 的 像素 ;然后 以 该 像素 为 种 子 , 找 出 与 其 邻接 的 并 满足 预定 义 特征 和 一 致 性 准则 的 
像素 点 ,合并 到 该 种 子 区 域 ;反复 进行 这 一 合并 过 程 直 至 所 有 的 像素 点 均 被 唯一 地 归并 到 
某 个 种 子 区 域 。 这 一 过 程 实际 上 是 两 个 聚 类 过 程 ,其 结果 与 处 理 过 程 与 像素 扫描 顺序 有 
很 大 的 相关 性 。 一 般 地 ,区 域 生长 技术 有 三 个 关键 问题 需要 解决 : 四 选择 一 组 能 正确 代 
表 区 域 的 种 子 像素 ; @ 确 定 生长 过 程 中 合并 相 邻 像素 的 特征 相似 性 (或 一 致 性 ) 准 则 ; 
@ 指 定 停止 生长 过 程 的 条 件 。 事 实 上 .在 区 域 生 长 停止 后 ,经 常会 有 一 些 零 碎 的 小 区 域 存 
在 ,因此 ,大 多 数 利用 区 域 生 长 的 分 割 方 法 都 需要 采用 区 域 合 并 以 作为 后 续 处 理 措施 。 

(3) 基于 区 域 边缘 检测 的 技术 。 边 缘 检 测 是 图 像 处 理 领 域 一 个 研究 了 很 长 时 间 的 问 
题 , 最 早 的 对 灰 度 图 像 边缘 检测 的 研究 可 以 追溯 到 1965 年 。 现 在 已 经 有 了 为 数 众 多 的 检 
测算 子 ,它们 使 用 不 同 的 数学 工具 来 实现 边缘 检测 。 利 用 图 像 梯度 信息 的 微分 算 子 : 
Laplace 算 子 .Sobel 算 子 .Roberts 算 子 .综合 正 交 算 子 .Canny 算 子 等 ;利用 数学 形态 学 
腐蚀 膨胀 运算 的 形态 学 算 子 ;利用 小 波 的 小 波 算 子 等 。 

归纳 起 来 ,基于 区 域 边 缘 检 测 的 分 割 方法 一 般 复 杂 度 较 大 ,这 是 因为 边缘 检测 并 不 能 
直接 得 到 图 像 区 域 , 往 往 还 需要 区 域 填 充 、 裂 颖 弥合 等 复杂 的 后 续 处 理 才 能 得 到 最 终 的 结 
果 。 而 且 这 类 技术 对 噪声 敏感 ,所 以 一 般 需 要 在 预 处 理 过 程 中 采取 某 些 去 噪 措施 。 

3) 基于 模糊 理论 的 分 割 方法 

上 述 的 方法 在 进行 图 像 像素 归 类 时 ,基本 上 都 是 以 一 种 确定 性 的 方式 进行 决策 , 即 认 
为 一 个 图 像 像素 只 可 能 属于 一 个 区 域 ,而 隶属 其 他 区 域 的 可 能 性 为 零 。 事 实 上 ,由 于 在 图 
像 表 示 、 分 析 与 理解 的 各 个 层次 上 都 存在 不 确定 性 ,有 时 候 图 像 中 的 区 域 并 不 具有 明确 的 
定义 ,因此 图 像 像 素 的 分 类 决策 也 不 能 明确 地 进行 。 更 合理 的 方式 应 该 对 各 层 上 的 不 确 
定性 进行 处 理 ,并 将 其 向 更 高 层次 传递 ,这 样 可 以 为 高 层 保留 尽 可 能 多 的 信息 ,从 而 避免 
由 于 过 早 的 低层 判定 而 导致 高 层 的 决策 出 现 偏差 。 


第 7 章 图 像 信息 检索 / 223 


利用 模糊 理论 的 分 割 方法 正 是 基于 上 述 思 想 而 提出 的 。 在 图 像 分 割 ( 边 缘 检测 ) 中 使 
用 模糊 集 。 在 模糊 集合 中 ,像素 属于 某 个 区 域 的 程度 用 隶属 度 来 表示 。 源 于 模糊 集合 的 
概念 ,产生 了 模糊 测度 和 模糊 积分 的 概念 。 模 糊 测度 用 于 度量 模糊 程度 ,模糊 积分 可 以 理 
解 为 模糊 期 望 。 

(1) 模糊 特征 空间 聚 类 。 基 于 特征 空间 聚 类 的 分 割 方法 中 ,可 以 将 图 像 像素 映射 为 
特征 空间 中 的 一 些 点 ,然后 通过 聚 类 来 实现 点 的 分 类 。A 均 值 聚 类 算法 是 一 种 确定 性 方 
法 , 聚 类 过 程 中 进行 的 是 一 种 二 值 (0-1) 硬 决策 , 即 一 个 点 总 是 要 么 属于 某 个 类 ,要 么 不 属 
于 该 类 。 事 实 上 ,由 于 不 确定 性 的 存在 ,这 样 的 点 分 类 方式 并 不 合理 。k- 均 值 聚 类 方法 与 
模糊 数学 相 结 合 , 产生 了 著名 的 模糊 人 均值 聚 类 方法 。 与 人 均值 聚 类 一 样 ,模糊 
和 均值 聚 类 算法 的 聚 类 结果 受 初 始 条 件 影响 较 大 ,而 且 该 方法 计算 量 比 较 大 。 针 对 这 个 
问题 ,提出 用 快速 模糊 均值 聚 类 彩色 图 像 分 割 方法 来 减少 计算 量 ,明显 提高 了 模糊 
久 均 值 聚 类 的 计算 速度 。 另 外 ,把 模糊 积分 看 成 是 某 个 目标 属于 一 个 特定 类 的 最 大 置信 
度 ,并 将 模糊 积分 作为 山峰 聚 类 中 “距离 的 测度 ,用 于 度量 彩色 图 像 数 据 间 的 相似 程度 。 
也 有 将 模糊 理论 引入 Gibbs 随机 场 ,提出 了 广义 模糊 Gibbs 随机 场 ,然后 基于 该 描述 模型 
通过 肾 类 来 实现 分 割 , 在 医学 图 像 的 分 割 上 取得 了 较 好 的 效果 。 

(2) 模糊 区 域 生长 。 模 糊 区 域 生长 把 区 域 看 成 是 “颜色 基本 相同 ,并 存在 缓 变化 的 像 
素 集合 ”, 在 RGB 颜色 空间 中 根据 颜色 向 量 间 的 欧 氏 距离 定义 了 两 个 ( 相 邻 ) 像 素 之 间 对 
比 度 的 隶属 度 函 数 ,借以 作为 区 域 生 长 的 相似 性 指标 。 由 于 RGB 空间 的 三 个 颜色 分 量 是 
彼此 相关 的 ,所 以 在 该 空间 中 使 用 欧 氏 距离 来 度量 颜色 差异 并 不 合适 。 一 种 基于 模糊 连 
接 度 的 分 割 方法 ,需要 人 工 参与 , 即 由 用 户 来 选 定 种 子 点 ,然后 算法 自动 计算 各 点 到 种 子 
点 的 模糊 连接 度 和 最 优 路 径 , 最 后 用 户 通过 选取 阅 值 来 得 到 分 割 结果 。 也 有 学 者 提出 一 
种 基于 模糊 颜色 相似 测度 的 彩色 图 像 分 割 方 法 ,首先 在 HLS 颜色 空间 上 定义 了 一 个 模糊 
颜色 集 ,并 把 图 像 中 的 每 一 个 像素 都 表示 为 一 个 模糊 颜色 集 ,然后 利用 两 个 模糊 集合 的 相 
似 测度 来 度量 像素 的 相似 程度 ,最 后 以 该 相似 测度 为 准则 反复 合并 相 邻 像素 ,以 形成 有 意 
义 的 区 域 。 

(3) 模糊 边缘 检测 。 模 糊 推理 可 方便 地 用 于 边缘 检测 ,利用 模糊 推理 规则 产生 了 一 
种 HTS 空间 中 的 边缘 检测 方法 , 即 先 利 用 线性 的 模糊 隶属 函数 来 描述 两 个 像素 在 各 分 量 
上 的 绝对 差异 ,然后 定义 若干 个 3X3 的 边缘 结构 ,并 使 每 个 结构 对 应 一 条 模糊 规则 ,再 根 
据 这 些 规则 通过 推理 来 得 出 代表 某 个 分 量 潜在 边缘 的 模糊 集合 。 推 理 时 ,一 个 像素 可 能 
在 1 个 .2 个 甚至 3 个 分 量 上 被 检测 出 是 边缘 点 。 对 每 一 种 情况 的 推理 结果 进行 加 权 求 
和 , 则 可 求 得 表示 颜色 边缘 点 的 模糊 集合 。 
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另 一 种 方法 是 利用 互 和 了 两 个 颜色 分 量 进行 边缘 检测 ,分 量 了 可 以 检测 出 大 部 分 边 
缘 ,但 对 于 相同 亮度 不 同色 调 的 区 域 , 则 需 用 分 量 末 。 素 属 度 函 数 可 通过 直方 图 确定 , 同 
样 地 ,六 个 3X3 的 潜在 边缘 结构 对 应 六 条 模糊 规则 ,另外 ,还 可 将 边缘 检测 的 结果 和 区 域 
抽取 方法 相 结 合 , 以 提高 分 割 质量 。 

除 上 面 提 到 的 基于 模糊 理论 的 分 割 方法 外 ,也 有 将 模糊 理论 与 直方 图 阔 值 技术 相 结 
合 来 实现 分 割 的 方法 。 总 的 来 看 ,通过 在 分 割 过 程 中 引入 模糊 理论 ,可 以 对 各 个 层次 上 的 
不 确定 性 进行 处 理 , 并 将 其 尽 可 能 保留 到 高 层 ,从 而 不 影响 高 层 的 决策 。 但 模糊 方法 的 引 
入 增加 了 计算 量 , 有 时 候 甚 至 使 算法 变 得 十 分 复杂 ,计算 开销 难以 接受 。 

4) 基 于 特定 理论 工具 的 分 割 方法 

除了 上 述 几 类 分 割 方法 外 ,图 像 分 割 领 域 还 有 一 些 基 于 特定 理论 工具 的 算法 ,主要 有 
基于 数学 形态 学 的 、 利 用 神经 网 络 的 、 基 于 小 波 分 析 和 变换 的 、 基 于 遗传 算法 的 分 割 方 法 
等 。 这 些 特定 理论 工具 的 算法 绝 大 部 分 都 是 针对 某 个 方面 的 具体 应 用 提出 的 。 

3. 分 割 方法 存在 的 不 足 

从 20 世纪 60 年 代 展 开 对 边缘 提取 方法 的 研究 至 今 ,图 像 分 割 技术 已 经 经 历 了 五 十 
多 年 的 发 展 , 这 期 间 研 究 人 员 提 出 了 许多 的 分 割 方法 。 但 是 ,这 项 技术 并 不 成 熟 ,还 存在 
诸多 的 问题 。 归 纳 起 来 ,当前 分 割 技术 主要 存在 如 下 一 些 不 足 。 

(1) 现 有 分 割 方法 一 般 只 考虑 了 图 像 视觉 特征 的 一 致 性 ,因而 分 割 得 到 的 结果 通常 
也 只 是 一 些 视 觉 特 征 一 致 的 图 像 区 域 , 与 对 象 分 割 的 目标 相去 甚 远 ,而 引入 高 层 特征 的 对 
象 分 割 方法 尚 处 于 起 步 探 索 阶 段 。 

(2) 现 有 分 割 方法 的 准确 性 与 通用 性 一 般 较 差 , 分 割 精度 或 待 提高 ,不 同 的 方法 往往 
只 对 特定 的 图 像 和 特定 的 应 用 背景 有 效 ,例如 把 医学 图 像 分 割 方 法 用 来 分 割 自然 景物 图 
像 一 般 会 效果 很 差 。 

(3) 多 数 已 有 的 分 割 方法 复杂 度 较 高 ,分割 所 需 的 计算 时 间 较 长 ,很 难 满足 一 些 实 时 
应 用 的 需要 。 

(4) 缺乏 通用 有 效 的 评价 指标 。 尽 管 已 经 提出 了 一 些 定量 的 分 割 质量 评价 指标 ,但 
它们 都 存在 这 样 或 那样 的 问题 ,并 没有 得 到 普遍 认可 与 接受 ;很 多 时 候 , 对 分 割 好 坏 的 评 
佑 仍旧 依赖 于 人 眼 的 主观 判别 。 


7.5.3 相似 性 度量 
在 基于 视觉 特征 的 图 像 检 索 过 程 中 ,图 像 的 相似 性 本 质 上 就 是 图 像 视 觉 特 征 的 相似 
性 。 近 几 十 年 ,不 同 的 研究 人 员 提 出 了 许多 不 同 的 相似 性 度量 模型 。 通 常 相 似 性 度量 应 
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满足 以 下 一 些 性 质 : @ 与 语义 相 吻 合 ; @ 对 噪声 鲁 棒 ; @ 计 算 的 有 效 性 (能 够 达到 实时 并 
且 在 高 尺度 的 条 件 下 能 够 计算 ); @ 对 背景 具有 不 变性 ; @ 局 部 线性 (在 邻近 区 域 满 足 三 
角 不 等 式 )。 常 用 的 相似 性 度量 模型 有 几何 模型 .相关 计算 模型 .关联 系数 模型 等 。 

1. 几何 模型 

几何 模型 将 图 像 的 特征 看 做 是 坐标 空间 中 的 点 ,通常 用 两 点 之 间 的 距离 表示 它们 的 
相似 程度 。 设 d 为 距离 度量 函数 ,si、sz、ss 为 三 个 特征 向 量 , 则 距离 度量 函数 的 定义 需要 
满足 以 下 的 距离 公理 。 

(1) 自 相 似 : dsi,si) 一 ds sz) 一 ds,sa) 一 0。 

(2) 对 称 性 : d(si,sz) 一 dszysi) 。 

(3) 三 角 不 等 性 ; d(si ,sz) 十 d(sz ,ss3) 宇 d(s1 ,ss) 。 

常用 的 距离 度量 函数 有 以 下 几 种 : 

(1) Minkowsky 距离 。Minkowsky 距离 可 以 延伸 为 Manhattan 距离 . 欧 氏 距离 和 切 
比 雪夫 距离 等 。 


N 
dep) = [2 | zy "J (7-37) 
dy 
N 


当 > 王 1 时 为 Manhattan 距离 : d(x,y) 一 > | zi— yi |。 


i= 


当 r=2 时 为 欧 氏 距离 : d xz, =[ |x, 一 y1 1 


欧 氏 距离 是 常见 的 距离 度量 函数 ,具有 空间 不 变性 的 特点 ,但 欧 氏 距离 没有 考虑 到 各 
维 之 间 的 关系 ,所 以 在 图 像 检 索 中 较 多 使 用 加 权 欧 氏 距离 。 当 一 c2 时 为 切 比 雪夫 距离 ， 
dx 一 maxlz 一 2 4 


(2) 直方 图 相交 距离 。 用 于 以 直方 图 为 特征 向 量 的 相似 性 度量 。 


N N N 
dz) = Dmin Gisy) /min( > rw) (7-38) 
(3) 直方 图 二 次 式 距离 。 两 个 颜色 直方 图 X 和 YY 之 间 的 二 次 式 距离 可 以 表示 为 
DX,Y) = (X—Y)TA(X—Y) (7-39) 


对 基于 颜色 直方 图 的 图 像 检 索 来 说 ,二 次 式 距离 比 使 用 欧 氏 距离 或 是 直方 图 相交 距 
离 更 为 有 效 。 因 为 它 通过 引入 颜色 相似 性 矩阵 4, 使 其 能 够 考虑 到 颜色 相似 但 不 相同 的 
图 像 , 但 该 方法 的 运算 代价 较 大 。 

(4) Mahalanobis 距离 。 如 果 特 征 向 量 的 各 个 分 量 间 具 有 相关 性 或 者 具有 不 同 的 权 
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重 , 可 以 采用 Mahalanobis 距离 。 


= 
d(x,y) 一 A/ (xz 一 DT>)CGx 一 刀 (7-40) 
= 


式 中 ，》) 为 特征 向 量 *、y 的 协 方差 矩阵 。 
2. 相关 计算 模型 
相关 计算 模型 是 计算 两 个 特征 向 量 之 间 的 相关 性 ,相关 性 越 大 ,说 明 越 相似 。 常 用 的 
相关 方法 有 内 积 相关 、 余 弦 相 关 、 佩 尔 森 (Pearson) 积 矩 相 关 等 。 
(1) 内 积 相关 
R(x,y) = Driy: (7-41) 
(2) 余弦 相关 


cos0 一 (7-42) 


(3) 佩 尔 森 积 和 矩 相 关 


Sn 
R(x,y) = 党 (7-43) 
(zi 一 五 )2 Dy 一 区) 
式 中 ,zxi,yi 是 图 像 数 据 库 中 所 有 第 i 个 特征 的 均值 。 
3. 关联 系数 模型 
若 图 像 中 的 有 些 特征 是 二 值 型 的 , 则 用 关联 系数 模型 计算 。 例 如 , 令 二 值 特征 向 量 分 
别 为 xi,yi, 则 Gower 关联 系数 如 下 式 : 


N nn 
Se 一 Ds Du (7-44) 
i=1 i=1 


式 中 ,5; 王 Xiyi, 如 果 Xi 与 y; 匹配 , 则 5 一 1, 和 否则 $i = 0 ,wi 为 权重 因子 。 


7.5.4 图 像 索 引 
对 于 大 规模 图 像 数 据 库 来 说 ,线性 扫描 已 经 很 难 满足 用 户 的 需求 ,因此 需要 利用 相应 
的 技术 和 数据 结构 来 组 织 特征 向 量 并 管理 搜索 过 程 从 而 加 速 查 询 , 这 就 是 索引 的 基本 功 
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能 。 图 像 数 据 库 的 索引 机 制 与 一 般 索 引 结构 的 一 个 重要 区 别 在 于 它 面临 着 维度 问题 带 来 
的 影响 。 

为 了 使 基于 视觉 特征 的 图 像 检 索 技 术 能 够 应 用 于 大 规模 的 图 像 库 , 必 须 采 用 有 效 的 
多 维 索引 技术 。 它 存在 的 难题 有 两 个 方面 : 一 是 高 维 数 ,通常 情况 下 ,图 像 特征 向 量 的 维 
数量 级 是 102; 二 是 非 欧 拉 的 相似 性 度量 ,由 于 欧 拉 度 量 方法 可 能 无 法 有 效 模仿 人 类 对 视 
觉 内 容 的 所 有 感知 ,因此 经 常 需要 采用 其 他 的 相似 性 度量 方法 ,例如 直方 图 的 交 、 余 弦 、 相 
关 性 等 非 欧 拉 的 相似 性 衡量 方法 。 近 年 来 研究 者 提出 了 很 多 解决 方法 ,它们 可 以 分 为 六 
类 : 高 维 索引 方法 、 降 维 方法 .近似 最 近邻 方法 .单一 维 空间 映射 方法 多重 空 间 填充 曲线 
方法 和 基于 过 滤 的 方法 。 

1. 高 维 索引 方法 

高 维 索引 方法 是 近 几 年 信息 检索 领域 的 研究 热点 。 索 引 机 制 的 关键 问题 是 如 何 划 分 
数据 空间 ,以 及 如 何 根据 划分 方法 将 数据 组 织 起 来 。 根 据 数据 空间 的 划分 方法 ,通常 将 高 
维 索引 方法 分 为 两 类 : 基于 空间 划分 的 方法 和 基于 数据 划分 的 方法 。 基 于 空间 划分 的 方 
法 是 对 数据 所 在 的 空间 进行 划分 ,这 种 方法 主要 包括 四 叉 树 、K-D 树 、R! 树 和 网 格 文件 
等 ;基于 数据 划分 的 方法 是 根据 数据 对 象 进行 划 分 ,这 种 方法 主要 包括 RR 树 、.R* 树 、X 树 
和 SR 树 等 。 

(1) 四 叉 树 。 四 叉 树 是 一 类 常见 的 索引 结构 ,属于 基于 空间 划分 的 索引 结构 。 在 四 
叉 树 创建 时 ,首先 将 整个 空间 划 成 四 个 相等 的 子 空间 ,然后 对 每 个 或 其 中 几 个 子 空间 再 继 
续 划 分 ,这 样 就 形成 了 一 个 基于 树 图 的 空间 划分 。 四 又 树 是 一 种 金字 塔 式 的 数据 结构 。 
当 图 像 是 方形 的 , 且 像素 点 的 个 数 是 2 的 整数 次 寡 时 ,四 又 树 最 合适 。 四 又 树 的 根 节 点 对 
应 于 整 幅 图 像 , 叶 节点 对 应 各 单个 像素 或 具有 相同 特性 的 像素 组 成 的 方 阵 , 所 有 的 点 可 分 
为 三 类 : 目标 节点 .背景 节点 、 混 合 节点 。 同 尺 树 相 比 ,四 又 树 可 以 用 顺序 存储 的 线性 表 
来 表示 索引 ,内 存 需 求 量 小 ,插入 和 删除 操作 更 加 简单 .方便 ,有 利于 查询 速度 的 提高 。 但 
四 叉 树 是 一 种 非 平 衡 树 ,在 建立 索引 之 前 必须 预先 知道 空间 对 象 所 分 布 的 范围 ,可 调节 性 
比较 差 。 

(2) K-D 树 。K-D 树 是 一 种 维 空间 中 的 二 又 查找 树 , 主要 用 于 存储 点 数据 。 在 
K-D 树 建立 时 ,数据 集合 向 每 个 坐标 轴 投 影 , 选 取 最 长 投影 值 的 中 值 作为 切割 点 ,将 整个 
数据 集合 分 割 为 两 个 ,分 别 作 为 节点 的 存储 对 象 构成 子 节点 ,然后 对 每 个 子 集 进行 同样 的 
操作 ,直到 每 个 集合 最 小 。K-D 树 是 一 个 非 平衡 树 , 不 同 数据 插入 顺序 会 产生 不 同 结构 
的 K-D 树 。 在 K-D 树 中 ,数据 不 仅 出 现在 叶 节 点 上 ,也 可 以 分 散在 树 的 任何 地 方 。K-D 
树 虽然 对 存储 要 求 比较 低 ,但 却 增加 了 树 的 深度 ,不 利于 海量 数据 存储 , 树 的 更 新 也 比较 
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困难 。 

(3) R' 树 。R'* 树 的 提出 是 为 了 解决 R 树 中 MBR 重 到 造成 的 多 重 路 径 搜索 问题 。 
R"* 树 采 用 特殊 的 分 裂 方式 ,分 解 后 的 对 象 存储 在 几 个 节点 中 ,使 同 层 的 节点 矩形 之 间 不 
再 存在 重 倒 。 实 验 表 明 , 与 RR 树 相 比 ,R’ 树 的 性 能 有 一 定 提高 ,特别 是 针对 点 查询 ,可 以 
减少 超过 50% 的 磁盘 访问 次 数 , 但 需要 占据 较 多 的 存储 空间 。 

(4) 网 格 文件 。 网 格 文件 (gird-file) 是 一 种 典型 的 基于 哈 希 表 的 数据 存 取 方式 , 它 是 
由 包含 很 多 与 数据 桶 相 联 系 的 单元 网 格 目 录 来 实现 的 。 一 般 一 个 数据 桶 对 应 于 硬盘 上 一 
个 磁盘 页 ,每 个 单元 只 对 应 一 个 数据 桶 ,而 一 个 数据 桶 可 以 包含 着 几 个 相 邻 的 单元 。 网 格 
文件 索引 方法 的 优点 是 算法 实现 较为 简单 ,结合 编码 技术 可 以 快速 实现 目标 查询 ;缺点 是 
数据 元 余 较 大 , 缺少 层次 ,灵活 性 差 , 无 法 实现 多 分 辩 率 。 网 格 文件 的 变种 主要 有 
EXCET 两 层 网 格 文件 和 Twin 网 格 文件 等 。EXCET 与 网 格 文件 的 不 同 之 处 在 于 其 所 
有 的 网 格 单元 大 小 都 是 相同 的 ,因此 每 次 分 裂 都 将 导致 目录 大 小 成 倍增 长 。 两 层 网 格 文 
件 的 基本 思想 是 再 增加 一 个 网 格 文件 ,形成 两 层 网 格 来 管理 目录 ,其 中 第 一 层 称 为 根 目 
录 , 是 第 二 层 目 录 的 一 个 大 致 描述 ,以 指针 指向 第 二 层 目 录 , 而 第 二 层 目录 才 是 真正 的 目 
录 , 包 含 了 指向 数据 页 的 指针 。Twin 网 格 文件 也 引入 了 另 一 个 网 格 文件 ,这 两 个 文件 的 
关系 是 对 等 的 ,而 且 每 个 文件 都 覆盖 了 整个 空间 ,数据 在 这 两 个 文件 中 的 分 布 是 动态 的 。 

(5) RR 树 。R 树 是 空间 数据 索引 结构 中 最 重要 的 一 种 层次 结构 ,许多 其 他 数据 索引 
方法 都 是 在 R 树 的 基础 上 演变 出 来 的 。R 树 是 一 种 平衡 树 , 是 一 种 性 能 比较 好 的 索引 结 
构 。 甚 最 小 外 接 矩 形 (MBR) 之 间 人 允许 重 释 ,保证 了 尺 树 具有 至 少 50% 的 空间 利用 率 ,但 
这 种 无 约束 的 重 又 ,在 维 数 比 较 高 时 很 可 能 会 导致 索引 次 数 和 存储 空间 的 大 量 增加 ,严重 
影响 查询 效率 。 

(6) R* 树 。R"* 树 的 创新 之 处 在 于 分 裂 时 提出 了 一 种 “强行 再 插入 ”的 概念 。 如 果 一 
个 节点 滥 出 ,就 删除 一 定 百分比 的 远离 中 心 区 域 的 目标 ,再 按 择 入 方法 重新 插入 这 些 目 
标 ,这 种 改进 使 得 R* 树 的 空间 利用 率 可 达 71%~~76%。 通 过 与 R 树 比较 ,R* 树 除了 建 
树 复杂 外 ,其 性 能 都 超过 R 树 ,提高 了 10%~75% ,而且 R* 树 的 鲁 棒 性 也 很 强 , 适 于 多 种 
数据 分 布 情况 。IBM 公司 的 QBIC 图 像 检 索 系 统 就 是 采用 了 这 种 索引 方法 。 

(7) 祥 树 。X 树 是 对 R* 树 的 一 种 改进 。 同 R* 树 相 比 ,X 树 主要 做 了 两 方面 的 改进 : 
一 是 分 裂 时 进行 无 重 琶 分 橡 ;二 是 节点 容量 增 大 成 为 超 节点 。 这 种 改进 使 得 X 树 索引 结 
构 结合 了 层次 结构 的 R 树 和 线性 的 顺序 索引 两 者 的 优点 ,成 为 一 种 比较 适合 高 维 索 引 的 
数据 结构 ,在 较 高 维 时 的 检索 性 能 超过 R* 树 两 个 数量 级 。 

(8) SR 树 。SR 树 的 每 个 节点 用 最 小 外 接 圆 (7T) 和 最 小 外 接 矩 形 (MBR) 共 同 描述 。 
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这 种 方法 增加 了 每 个 节点 的 存储 空间 ,同时 也 使 得 SR 树 的 创建 较为 困难 ,但 提高 了 区 域 
之 间 的 分 离 性 。 实 验 表 明 , 同 R* 树 相 比 ,SR 树 提 高 了 邻近 查询 的 效率 。 

2. 降 维 方 法 

降 维 方法 是 通过 将 数据 点 映射 到 更 低 维 的 空间 上 以 寻求 数据 的 紧凑 表示 的 一 种 技 
术 , 这 种 低 维 空间 的 紧凑 表示 将 有 利于 对 数据 的 进一步 处 理 。 在 基于 视觉 特征 的 检索 中 ， 
可 以 通过 维 数 缩减 处 理 , 将 图 像 特 征 向 量 的 维 数 降低 到 一 定 的 限度 ,然后 应 用 成 熟 的 索引 
机 制 构建 相应 的 索引 结构 。 常 用 的 降 维 方法 有 : 基于 低 维 投影 的 降 维 、 基 于 数据 间 相 似 
性 的 降 维 、 基 于 分 形 的 降 维和 基于 神经 网 络 的 降 维 等 。 

(1) 基于 低 维 投影 的 降 维 。 基 于 低 维 投影 的 降 维 主 要 包括 主 成 分 分 析 (principal 
component analysis, PCA) 方 法 和 投影 寻 踪 (projection pursuit,PP) 方 法 。PCA 方法 是 使 
用 最 为 广泛 的 线性 降 维 方 法 之 一 ,在 信号 处 理 领 域 , 它 对 应 着 Karhunen-Loeve(KL) 变 
换 。 概 括 地 讲 , 它 先 将 数据 投影 到 某 一 个 主 成 分 上 ,然后 寻找 具有 最 大 方差 的 线性 特征 
集 , 进 而 达到 降 维 的 目的 。 投 影 寻 踪 的 基本 思想 是 将 高 维 数据 投影 到 低 维 子 空间 上 ,寻找 
能 反映 原始 高 维 数据 结构 或 特征 的 投影 ,然后 通过 分 析 和 研究 投影 数据 以 达到 了 解 原始 
数据 的 目的 。 

(2) 基于 数据 间 相似 性 的 降 维 。 该 类 降 维 方 法 根据 原始 高 维 数据 之 间 的 相似 性 直接 
寻找 相应 的 低 维 坐标 。 多 维 尺度 (multi-dimensional scaling)、 随 机 邻居 艇 入 (stochastic 
neighbor embedding) ,等同 映 射 (isometric mapping)、 局 部 线性 租 入 (locally Li-near 
embedding) 以 及 拉 普 拉 斯 特征 映射 (Laplacian Ei 一 genmaps) 等 算法 均 属 于 基于 数据 间 相 
似 性 的 降 维 方法 范畴 。 

(3) 基于 分 形 的 降 维 。 如 果 一 个 数据 集 在 所 有 的 观察 尺度 下 均 具 有 自 相 似 性 , 即 一 
个 数据 集 的 部 分 分 布 有 着 与 整体 分 布 相似 的 结构 , 称 该 数据 集 是 分 形 的 。 基 于 分 形 的 降 
维 是 近年 来 才 得 到 关注 的 一 类 方法 。 采 用 分 形 的 思想 ,可 以 比较 准确 地 估计 出 数据 的 本 
征 维 ,为 降 维 提供 指导 性 的 参考 。 与 其 他 方法 对 本 征 维 的 估计 所 不 同 的 是 ,基于 分 形 的 方 
法 能 得 到 非 整 数值 的 本 征 维 , 即 通常 所 说 的 分 数 维 。 关 于 分 数 维 的 定义 ,也 有 多 种 不 同 的 
描述 ,其 中 应 用 较 广 泛 的 是 计 盒 维 (box-counting dimension) 和 相关 维 (correlation 
dimension) 。 

(4) 基于 神经 网 络 的 降 维 。 神 经 网 络 通常 用 来 建 模 输入 向 量 集 之 间 的 关系 。 在 基于 
神经 网 络 的 降 维 方法 中 ,根据 算法 使 用 的 不 同 网 络 结构 ,又 可 将 其 分 为 自动 编码 网 络 
(auto-encoder networks)、 自 组 织 特 征 映 射 (self-organizing mapping) 和 生成 建 模 


(generative modeling) 等 。 
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3. 近似 最 近邻 方法 

以 往 的 技术 集中 于 获得 精确 的 查询 结果 ,然而 在 多 媒体 应 用 领域 “精确 ”的 含义 具有 
很 强 的 主观 性 。 首 先 ,样本 图 像 本 身 不 一 定 精确 表达 用 户 的 意图 ,另外 ,图 像 本 身 是 采用 
视觉 特征 向 量 来 近似 描述 ,而 特征 向 量 之 间 的 相似 性 程度 又 依赖 于 具体 的 度量 方法 。 因 
此 ,精确 的 最 近邻 并 不 一 定 与 人 类 的 感知 相 一 致 。 近 似 最 近邻 方法 的 目的 是 在 获得 用 户 
满意 结果 的 前 提 下 ,缩小 查询 范围 ,以 提高 系统 的 响应 速度 。 大 多 数 的 近似 最 近邻 方法 集 
中 于 e- 最 近邻 (eNN) 查 询 ,se 是 所 能 容忍 的 最 大 相对 误差 。 当 原始 空间 固有 的 维 数 很 高 
时 ,e-NN 仍 不 能 摆脱 维 数 问题 的 困扰 。 有 学 者 提出 一 个 概率 近似 最 近邻 (PAC-NN) 方 
法 , 即 在 已 知 查询 点 距离 分 布 的 情况 下 ,允许 以 一 定 的 概率 $ 超越 误差 界限 es。 由 于 实际 
的 数据 库 在 特征 空间 中 并 不 会 呈 一 致 分 布 ,一 些 研 究 者 利用 这 种 特征 空间 分 布 信息 进行 
有 效 的 近似 最 近邻 查询 。 有 学 者 采用 了 基于 网 格 的 聚 类 方法 ,首先 将 特征 空间 划分 成 网 
格 , 对 邻近 的 高 密度 单元 进行 合并 形成 聚 类 ,然后 将 每 个 聚 类 中 的 数据 进行 顺序 地 存储 ， 
对 于 相似 性 查询 ,只 需 读 入 一 个 或 几 个 近邻 聚 类 ,以 此 可 以 节省 大 量 的 I/O 操作 。 

4. 单一 维 空间 映射 方法 

由 于 商用 数据 库 管理 系统 都 支持 B* 树 这 种 有 效 的 一 维 索 引 结 构 ,一 些 研究 者 采取 了 
将 高 维 空间 数据 映射 到 一 维 空间 进行 检索 的 方法 。Berchtold 等 人 提出 了 一 个 数据 空间 
的 金字 塔 形 划分 方法 ,其 查询 方式 为 范围 查询 (range query) ,该 方法 采用 一 个 类 似 于 剥 洋 
萄 方式 对 数据 空间 进行 划分 ,能 很 好 地 避免 维 数 困 扰 问 题 。 金 字 塔 技术 以 中 心 点 作为 顶 
点 ,将 d 维 数据 空间 划分 为 24 个 金字 塔 。 每 个 金字 塔 以 平行 于 塔 基 的 方式 划分 成 多 个 部 
分 。 将 数据 点 在 每 个 金字 塔 划 分 内 的 高 度 作 为 对 该 点 的 近似 ,采用 B* 树 对 其 索引 。 也 可 
以 进一步 采用 不 同 的 数据 空间 划分 和 参考 点 选择 方法 ,将 特征 空间 映射 到 一 维 空间 ,并 利 
用 了 B* 树 在 范围 查询 的 基础 上 ,逐步 增加 查询 半径 以 实现 -NN 查询 。 

5. 多 重 空间 填充 曲线 方法 

多 重 空间 填充 曲线 索引 方法 的 基本 思想 是 : 利用 空间 填充 曲线 将 高 维 空间 的 数据 映 
射 到 低 维 空间 ,然后 利用 其 他 索引 方法 对 这 些 低 维 空间 的 数据 进行 处 理 。Hilbert R 树 就 
是 基于 这 一 思想 提出 的 , 它 选 择 Hilbert 曲线 作为 一 种 高 维 到 低 维 的 映射 ,建立 在 这 种 映 
射 之 上 的 Hilbert R 树 把 各 个 数据 矩形 的 中 心 映 射 为 Hilbert 曲线 上 的 一 个 值 ,然后 把 这 
些 值 按 升序 排列 。 这 样 , 就 可 以 获得 一 棵 空间 利用 率 接近 100% 的 Hilbert R 树 ,Hilbert 
R 树 是 一 种 高 效 的 高 维 索引 结构 ,但 这 种 方法 是 以 牺牲 检索 准确 性 为 代价 的 。 

6. 基于 过 滤 的 方法 

对 于 一 致 性 分 布 数据 而 言 , 当 索引 结构 维 数 超过 十 维 时 ,大 多 数 索引 结构 的 检索 性 能 
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甚至 不 如 顺序 扫描 。 基 于 过 滤 的 VA-File 对 原始 特征 向 量 进 行 近 似 压缩 ,通过 对 这 种 压 
缩 文 件 的 顺序 扫描 来 对 原始 特征 向 量 进行 过 滤 ,再 对 原始 的 候选 向 量 进行 验证 检查 ,这 样 
就 可 以 节省 大 量 的 I/O 操作 。VA-File 的 基本 思想 是 将 高 维 数据 进行 压缩 和 近似 存储 。 
它 将 数据 空间 划分 成 22 单元 ,2 表示 用 户 指 定 的 二 进 制 位 数 ,每 个 单元 分 配 一 个 位 串 。 位 
于 某 个 单元 内 的 向 量 用 这 个 单元 近似 代替 ,VA-File 本 身 只 是 这 些 近似 体 的 数组 。 查 询 
时 , 先 扫描 VA-File, 选 择 候选 向 量 ,再 访问 向 量 文件 。VA-File 采用 了 顺序 扫描 的 思想 。 
如 果 数 据 分 布 足 够 密集 ,对 数据 直接 进行 顺序 扫描 有 时 会 比 扫 描 索 引 树 有 更 高 的 效率 ; 另 
外 ,VA-File 采用 了 二 进 制 表示 的 压缩 方法 ,减少 了 索引 结构 的 存储 空间 ,检索 效率 明显 
提高 ,是 目前 在 高 维 情况 下 唯一 能 优 于 顺序 查找 的 一 类 精确 索引 方法 。 对 于 分 布 比较 均 
匀 的 数据 而 言 , 其 检索 效果 要 好 于 顺序 扫描 《和 传统 的 多 维 检索 方法 ,而 对 于 具有 明显 聚 类 
倾向 的 分 布 数据 ,其 检索 效果 则 显著 下 降 。 为 了 增加 过 滤 能 力 ,VA-File 不 得 不 采用 更 
多 的 比特 数 进行 量化 描述 。 也 可 以 在 每 一 个 划分 单元 内 进一步 采用 极 坐标 方式 对 位 于 
此 单元 内 的 特征 向 量 进行 近似 描述 ,以 增加 过 滤 能 力 , 由 于 极 坐标 描述 方式 与 空间 维 数 
无 关 , 当 空间 维 数 增加 时 ,并 不 需要 更 多 的 描述 信息 。 一 些 研究 者 将 这 种 压缩 技术 和 索 
引 树 相 结 合 , 构 造 出 新 的 索引 结构 。 例 如 ,将 VA-File 与 尽 树 结合 ,提出 了 A 树 、IQ 
树 等 。 

很 多 方法 试图 解决 "维度 困扰 ”问题 ,其 中 一 些 方 法 取得 了 一 定 进展 ,能 够 获得 比 顺序 
查找 更 快 的 检索 速度 。 但 高 维 索 引 机 制 还 存在 很 多 的 问题 需要 进一步 研究 。 这 些 问题 主 
要 表现 在 以 下 几 个 方面 。 

(1) 多 数 现 有 的 索引 机 制 当 维 数 超过 十 维 时 ,性 能 急剧 下 降 。 

(2) 对 高 维 数据 进行 划分 时 ,通常 认为 数据 是 均匀 分 布 的 ,或 者 对 数据 的 分 布 进行 某 
些 假设 ,但 这 些 假 设 通常 与 数据 的 真实 分 布 相 差 甚 远 。 

(3) 多 数 索引 结构 不 支持 数据 库 的 动态 更 新 ,或 者 更 新 代价 昂贵 。 

(4) 多 数 索引 结构 ,尤其 是 高 维 索引 结构 ,其 计算 复杂 度 很 高 。 

(5) 多 数 索引 结构 只 能 处 理 维 数 固定 的 数据 。 

(6) 通常 一 个 新 的 索引 机 制 的 提出 只 是 对 某 一 个 或 一 类 原 有 机 制 的 改进 ,几乎 没有 
考虑 多 种 不 同形 式 的 有 效 结合 。 

(7) 大 部 分 研究 工作 只 从 提高 索引 性 能 的 角度 来 提高 基于 内 容 检索 的 效率 ,而 很 少 
考虑 从 改善 搜索 算法 的 性 能 方面 着 手 。 
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7.5.5 相关 反馈 技术 

虽然 基于 视觉 特征 的 图 像 检索 取得 了 一 定 的 成 果 , 但 图 像 视 觉 特征 与 高 层 语义 之 间 
固有 的 “语义 鸿沟 ?决定 了 仅仅 从 图 像 视 觉 特 征 这 一 方面 着 手 的 检索 方式 无 法 取得 满意 的 
结果 。 一 般 认为 ,用 户 倾 向 于 在 语义 层次 上 判断 检索 结果 的 好 坏 。 这 就 是 说 ,用 户 所 认为 
的 好 结果 必然 是 与 用 户 查询 在 语义 上 高 度 相关 的 。 为 了 解决 这 一 瓶颈 ,人 们 提出 了 交互 
式 相 关 反馈 技术 ,其 中 心思 想 是 : 将 人 类 理解 的 主观 性 融入 图 像 检 索 过 程 , 并 且 给 用 户 以 
评价 检索 结果 的 机 会 ,在 用 户 评估 的 基础 上 再 进一步 改进 检索 过 程 。 近 年 来 ,这 一 研究 主 
题 已 成 为 基于 视觉 特征 的 图 像 检 索 研 究 者 所 关注 的 焦点 。 

相关 反馈 技术 最 初 起 源 于 文本 检索 ,是 一 种 用 来 提高 检索 系统 精度 的 有 监督 学 习 方 
法 。 对 一 个 给 定 的 查询 ,系统 首先 根据 预先 确定 的 相似 性 规则 检索 出 一 系列 有 序 图 像 。 
然后 ,用 户 对 这 些 图 像 标 上 查询 相关 ( 正 例 ) 或 查询 无 关 ( 反 例 ), 系 统 将 基于 这 些 反馈 改进 
查询 并 检索 出 新 的 一 系列 图 像 提 交 给 用 户 。 因 此 ,相关 反馈 的 关键 问题 是 如 何 通 过 分 析 
反馈 的 正 例 和 反例 调整 相似 性 度量 并 改进 查询 的 质量 。 

尽管 文本 检索 中 的 相关 反馈 技术 研究 较 少 ,但 在 基于 视觉 特征 的 图 像 检 索 中 却 成 为 
活跃 的 研究 课题 。 导 致 这 种 现象 的 主要 原因 是 基于 视觉 特征 的 图 像 检 索 的 精度 较 低 ,以 
至 于 直接 应 用 源 于 文本 检索 的 相关 反馈 框架 也 能 够 显著 地 提高 精度 。 

在 一 些 基 于 视觉 特征 的 图 像 检索 系统 中 ,研究 者 利用 查询 点 移动 技术 和 轴 再 加 权 技 
术 来 实现 相关 反馈 。 查 询 点 移动 技术 本 质 上 是 通过 使 “理想 查询 点 ” 移 向 好 的 样本 点 并 远 
离 坏 的 样本 点 来 提高 其 评估 值 。 经 常 使 用 的 技术 是 Rocchio 提出 的 方法 ,该 方法 操作 于 
相关 文档 Dr 和 非 相 关 文档 D 集合 : 

oa+a( 志 吕 p)-z( 志 加 D) 0 

式 中 ,a,B 和 7 是 适当 的 参数 ;Ne 和 Nw 分 别 是 Dr 和 Dw 中 文档 的 数量 。MARS 系 
统 中 实现 了 这 一 技术 ,实验 表明 这 种 相关 反馈 技术 能 够 大 大 提高 检索 性 能 。 在 轴 再 加 权 
技术 中 ,主要 是 给 那些 范例 图 像 更 加 接近 的 特征 指派 更 大 的 权重 ,同时 给 别 的 特征 指派 小 
的 权重 。MindReader 检索 系统 对 轴 再 加 权 技术 进行 了 改进 ,他 们 利用 加 权 和 矩阵 定义 椭圆 
距离 作为 图 像 之 间 的 相似 性 度量 ,并 优化 参数 使 得 查询 图 像 全 局 分 散 性 最 小 化 。 相 关 反 
馈 也 可 以 认为 是 一 个 分 类 问题 。 首 先 应 用 用 户 提供 的 范例 图 像 训 练 一 个 分 类 器 ,然后 分 
类 器 把 数据 库 中 的 图 像 分 成 查询 相关 的 和 查询 不 相关 的 两 类 。 
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7.6 典型 的 图 像 检 索 系 统 


基于 视觉 特征 的 图 像 检 索 技 术 已 经 取得 了 长 足 的 发 展 , 迄 今 已 有 许多 图 像 检索 系统 
面世 。 下 面 介绍 一 些 比较 有 代表 性 的 基于 视觉 特征 的 图 像 检索 系统 。 

(1) QBIC。IBM 的 QBIC 系统 是 第 一 个 商品 化 的 图 像 检 索 系 统 , 其 系统 框架 与 技术 
对 后 来 的 图 像 检 索 系 统 有 深远 的 影响 。QBIC 系统 提供 对 图 像 、 视 频 、 文 本 和 语音 多 种 形 
式 的 多 媒体 信息 进行 检索 , 它 支持 基于 例 图 、 用 户 构 造 的 草图 查询 ,同时 也 支持 颜色 ,纹理 
和 形状 等 特征 的 查询 方式 。QBIC 是 考虑 了 高 维特 征 索引 的 系统 之 一 ,在 它 的 索引 子 系 
统 中 ,首先 采用 KI 变换 来 减 小 维 数 ,然后 采用 R* 树 作为 多 维特 征 的 索引 结构 。 

(2) Photobook。Photobook 是 MIT 的 媒体 实验 室 开发 的 一 套 交互 式 图 像 数 据 库 浏 
览 和 查询 工具 。 它 有 四 种 应 用 领域 的 示范 : 纹理 识别 .形状 识别 .人 脸 识 别 和 大 脑 形状 识 
别 。FourEyes 是 Photobook 的 扩展 版 本 , 它 突出 了 交互 式 语义 查询 及 系统 学 习 能 力 , 并 
且 还 应 用 了 相关 反馈 技术 。 

(3) VisualSeek。VisualSeek 是 由 哥伦比亚 大 学 开发 研制 的 基于 Web 的 图 像 /视频 
搜索 工具 , 它 是 最 早 的 基于 区 域 的 图 像 检 索 系 统 。 它 充分 利用 图 像 与 区 域 之 间 的 空间 关 
系 , 从 压缩 域 中 提取 视觉 特征 ,系统 所 采用 的 视觉 特征 是 颜色 特征 和 基于 小 波 变换 的 纹理 
特征 。 为 加 速 检 索 过 程 ,采用 了 基于 二 又 树 的 索引 算法 。 例 如 用 户 查 找 “ 日 落 ” 的 图 像 , 可 
在 草图 上 半 部 分 绘制 成 橘红 色 区 域 , 下 半 部 分 绘制 成 蓝 绿色 区 域 。VisualSeek 系统 由 三 
部 分 组 成 : 图 像 /视频 收集 器 主题 分 类 和 索引 器 .检索 器 。VisualSeek 提供 四 十 多 个 一 
级 类 目 管理 图 像 ,用 户 首先 通过 关键 词 检 索 得 到 初步 结果 ,然后 根据 初次 反馈 结果 ,选中 
满意 的 图 像 作为 训练 样本 进行 相关 反馈 。 

(4) Netra。Netra 系统 是 在 LTCSB 大 学 Alexandria 数字 图 书馆 项 目 中 用 于 图 像 检 
索 的 原型 系统 , 它 是 基于 图 像 分 割 的 检索 系统 。 利 用 图 像 区 域 的 颜色 纹理、 形状 及 空间 
关系 等 信息 从 图 像 库 中 检索 相似 的 区 域 。Netra 的 主要 特点 包括 采用 了 Gabor 滤波 器 的 
纹理 特征 ,基于 神经 网 络 的 “图 像 词典 ”的 构造 和 基于 边 流 法 (edge flow) 的 图 像 分 割 。 

(5) Virage 系统 。Virage 是 Virage 公司 开发 的 基于 内 容 的 图 像 搜 索引 擎 。 其 特点 
是 提供 完善 的 用 户 开发 功能 ,如 提供 用 于 开发 用 户 界面 的 工具 包 ; 提 出 Primitive 的 概念 ， 
用 于 支持 用 户 定义 新 的 图 像 视觉 特征 ;支持 五 种 抽象 数据 结构 便于 图 像 特 征 的 描述 ;提供 
用 户 相 关 反 馈 机 制 。Virage 已 经 和 多 种 商业 数据 库 系 统 进行 了 集成 。 

(6) MARS 系统 。MARS 是 多 媒体 分 析 和 检索 系统 的 英文 缩写 ,是 伊利 诺 斯 大 学 分 
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校 开发 的 。 它 是 计算 机 视觉 ,数据库 管理 系统 和 信息 检索 多 个 领域 交叉 的 系统 。MARS 
系统 的 重点 并 不 在 于 找到 所 谓 “ 最 好 ”的 图 像 特征 ,而 在 于 根据 实际 的 应 用 环境 和 用 户 需 
求 在 检索 框架 中 动态 地 组 合 调 整 各 种 不 同 的 图 像 特 征 。 在 图 像 检 索 中 提出 了 相关 反馈 的 
结构 ,并 在 检索 的 不 同 层次 上 使 用 了 该 技术 ,包括 查询 矢量 优化 、 自 动 匹配 工具 选择 和 自 
动 特 征 适 应 。 

(7) Retrieval Ware。RetrievalWare 是 由 Excalibur 开发 的 一 种 基于 视觉 特征 的 检索 
系统 。 它 使 用 了 颜色 、 形 状 、 纹 理 等 作为 查询 特征 。 它 同时 还 支持 将 这 些 查询 特征 组 合 起 
来 ,并 可 以 由 用 户 来 指定 各 自 的 权重 。RetrievalWare 的 技术 已 经 部 分 应 用 到 Yahoo 的 
Image Surfer 图 像 搜索 引擎 中 。 

(8) Blobworld。Blobworld 是 UC Berkeley Computer Vision Group 开发 的 基于 图 
像 分 割 的 检索 系统 。 该 系统 的 一 个 重要 特点 是 用 户 可 以 清楚 地 看 到 图 像 的 表示 ,提交 查 
询 的 同时 ,可 以 定性 规定 所 选区 域 和 其 他 区 域 的 重要 程度 ,以 及 各 区 域 的 各 种 特征 (颜色 、 
纹理 形状 .位 置 ) 的 重要 程度 ,从 而 使 用 户 能 清楚 地 理解 。 

(9) Simplicity。 该 系统 是 由 Stanford 大 学 开发 的 检索 系统 ,能 对 图 像 进 行 语义 的 分 
类 ,如 纹理 和 非 纹 理 图 、 户 内 和 户外 图 等 。 它 首先 从 图 像 的 像素 块 中 抽取 小 波纹 理 、LUV 
颜色 特征 ,然后 基于 A- 均 值 聚 类 方法 分 割 图 像 成 区 域 ,同时 将 分 割 的 结果 输入 到 分 类 器 中 
以 决定 图 像 的 语义 类 型 。Simplicity 提出 了 IRM(integrated region matching ,区 域 整合 
匹配 ) 的 相似 性 度量 ,这 一 方法 通过 在 两 幅 图 像 的 各 个 区 域 之 间 建 立 多 对 多 的 映射 ,以 减 
小 不 精确 分 割 的 影响 。 


7.7 图 像 检 索 技 术 的 发 展 方向 


7.7.1 融合 人 工 反 馈 

计算 机 视觉 模式 识别 系统 和 图 像 检 索 系统 的 一 个 基本 区 别 就 是 在 后 一 个 系统 中 人 是 
必 不 可 少 的 部 分 ,需要 探究 人 和 计算 机 的 配合 ,这 一 研究 已 在 基于 内 容 的 图 像 检索 系统 的 
评估 中 有 所 表现 。 早 期 的 研究 主要 是 “全 自动 系统 ”, 并 寻找 一 种 “单一 的 最 好 的 特征 ”。 
但 这 种 方法 并 不 成 功 ,因为 计算 机 视觉 技术 还 达 不 到 这 个 水 平 。 近 来 研究 重点 是 一 些 * 人 
机 交互 式 图 像 系统 ”和 “人工 反馈 检索 图 像 系 统 ”。 


7.7.2 高 层 语 义 和 低 层 视觉 特征 结合 
在 日 常生 活 中 ,人 们 倾向 于 用 高 层 语义 。 然 而 当前 的 计算 机 视觉 技术 能 够 从 图 像 中 


第 7 章 图 像 信息 检索 / 235 


自动 提取 的 大 多 数 是 低层 特征 。 在 受 限 的 应 用 中 ,如 人 脸 和 指纹 ,结合 低层 特征 和 高 层 语 
义 ( 面 部 或 指纹 ) 是 可 能 的 。 然 而 在 一 般 的 框架 中 ,低层 特征 和 高 层 语 义 并 没有 直接 的 联 
系 。 为 了 缩减 这 种 语义 上 的 差异 ,一 些 脱 机 或 是 在 线 的 处 理 是 必要 的 。 脱 机 处 理 可 以 通 
过 用 监督 学 习 、 无 监督 学 习 或 是 结合 两 者 来 获得 。 这 些 学 习 工 具有 神经 网 络 、 遗 传 算法 和 
聚 类 方法 。 一 种 用 户 交 互 友 好 的 智能 查询 界面 可 以 实现 在 线 处 理 , 这 种 方法 允许 用 户 对 
当前 检索 结果 的 评估 再 反馈 给 计算 机 ,在 MARS 中 提 到 的 相关 反馈 技术 是 一 种 有 效 
下 其 


7.7.3 面向 网 络 图 像 检索 

万 维 网 的 扩展 是 令 人 惊奇 的 。 每 天 都 有 成 千 上 万 的 文件 被 存储 到 网 上 ,其 中 有 大 量 
的 图 像 。 为 了 更 好 地 组 织 和 检索 这 些 几 乎 没有 限制 的 海量 图 像 信 息 , 需 要 探索 基于 网 页 
的 图 像 搜索 引擎 。Alta Vista、Inforseek 等 网 页 经 常 被 访问 这 一 事实 表明 基于 网 页 的 图 
像 搜 索引 擎 是 需要 的 。 同 基于 文本 的 图 像 检 索 相 比 , 网 页 上 基于 内 容 的 图 像 搜索 引擎 还 
需要 技术 上 的 突破 。 

一 个 主要 的 技术 难点 在 于 把 大 多 数 系统 中 用 的 低层 视觉 特征 索引 同 更 多 想 要 的 语义 
层 联 系 起 来 。 通 过 初步 的 网 上 实验 ,发现 主题 浏览 和 基于 文本 的 匹配 比 基 于 特征 的 搜索 
更 流行 。 部 分 原因 是 因为 网 上 的 商用 图 像 检 索 系 统 通过 用 户 化 主题 目录 来 组 织 它们 的 图 
像 库 。 通 常 ,不同 的 图 像 检索 系统 专注 于 不 同 的 用 户 群 和 内 容 。 因 此 ,索引 特征 和 主题 分 
类 也 不 同 , 导 致 各 个 网 络 图 像 库 的 互 用 性 有 所 欠缺 。 


7.7.4 图 像 检 索性 能 评价 与 检索 服务 平台 

当前 ,一些 图 像 检索 系统 基于 查找 正确 图 像 时 的 “cost of space/time”( 空 间 资源 与 时 
间 开 销 ) 来 衡量 图 像 检 索性 能 。 尽 管 这 些 准 则 在 一 定 程度 上 能 够 评估 系统 性 能 ,但 是 远 不 
能 令 人 满意 。 图 像 内 容 的 主观 感知 特性 是 造成 定义 一 致 性 评估 准则 比较 困难 的 一 个 主 
因 。 也 就 是 说 ,图 像 感知 的 主观 特性 阻碍 了 客观 评估 标准 的 定义 。 目 前 ,需要 找到 一 种 图 
像 检 索 系统 评估 方法 。 

建立 一 个 正常 的 大 规模 图 像 检 索 服 务 平台 同样 很 重要 。 对 于 图 像 压缩 ,我 们 常常 用 
Lena 图 像 , 它 能 权衡 不 同 的 纹理 。 对 于 视频 压缩 ,MPEG 研究 团队 提供 了 健全 的 测试 视 
频 序 列 。 对 于 基于 文本 的 信息 检索 ,有 标准 化 的 大 规模 试验 台 。 对 于 图 像 检索 试验 台 ， 
MPEG-7 研究 团队 近来 开始 收集 测试 数据 。 为 了 使 图 像 检索 服务 平台 获得 成 功 , 用 大 规 
模 复杂 图 像 数据 去 测试 其 可 测 性 (包括 多 维 索引 ); 用 图 像 内 容 的 丰富 性 以 测试 图 像 多 种 
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特征 的 有 效 性 和 系统 的 整体 稳定 性 能 。 


数字 图 像 中 包含 了 大 量 有 价值 的 信息 ,为 了 有 效 地 利用 图 像 中 所 包含 的 价值 内 容 , 这 
就 要 求 有 一 种 能 够 快速 而 且 准 确 地 从 海量 图 像 中 查找 并 获取 所 需 图 像 的 技术 ,也 就 是 图 
像 检 索 技术 。 图 像 检 索 通 常 可 以 分 为 两 大 类 , 即 基 于 文本 的 图 像 检 索 和 基于 内 容 的 图 像 
检索 。 

为 了 更 好 地 理解 图 像 检 索 基 础 知识 与 基本 原理 ,首先 需要 掌握 有 关 图 像 的 一 些 基本 
知识 ,包括 图 像 色 彩 的 要 素 ,图 像 属 性 类 型 与 图 像 格式 方面 的 知识 。 图 像 色彩 的 三 要 素 指 
的 是 色彩 的 亮度 、 色 调 与 饱和 度 , 在 表示 时 用 红 、 绿 、 蓝 为 三 基色 。 图 像 的 三 种 基本 类 型 是 
位 图 图 像 .矢量 图 图 像 . 印 刷 图 。 图 像 生成 或 者 产生 的 途径 与 形式 是 多 样 的 ,所 以 图 像 格 
式 也 是 多 样 的 。 

图 像 检 索 一 般 模型 主要 包括 的 内 容 是 图 像 特征 (图 像 的 色彩 、 纹 理 和 形状 等 特征 ) 提 
取 、 检 索 匹 配 机 制 (直方 图 距离 . 欧 氏 距离 ,城区 距离 .信息 炉 等 ) ,检索 者 终端 相关 反馈 。 

图 像 的 颜色 模型 主要 三 类 : 一 是 HSV 颜色 模型 。HSV 模型 即 色 调 五 .饱和 度 S 和 
亮度 V, 此 模型 可 以 用 三 维 坐标 系统 表示 ;二 是 RGB 颜色 模型 ,我 们 日 常见 到 的 最 普遍 的 
颜色 模型 就 是 RGB 模型 , 它 与 人 眼 视觉 结构 密切 相关 , 它 是 一 个 三 维 空间 模型 ,三 个 坐标 
轴 分 别 是 R( 红 )、G( 绿 )、B( 蓝 ) 轴 ,组 成 一 个 单位 正 立方 体 ;三 是 YUV 颜色 模型 ,YUV 颜 
色 模 型 又 称 YCrCb 模型 ,Y 表示 亮度 信号 ,U、V 表示 色 度 信号 。 

图 像 颜 色 特征 是 一 种 全 局 特征 ,描述 了 图 像 或 图 像 区 域 所 对 应 的 景象 的 表面 性 质 。 
在 颜色 特征 方面 ,颜色 直方 图 描述 了 图 像 颜 色 的 统计 分 布 特征 且 具 有 平移 、 尺 度 、 旋 转 不 
变性 ,因此 通常 用 颜色 直方 图 来 描述 颜色 特征 。 

纹理 特征 是 一 种 不 依赖 于 颜色 或 亮度 的 反映 图 像 中 同 质 现象 的 视觉 特征 。 它 是 所 有 

物体 表面 共有 的 内 在 特性 ,纹理 特征 包含 了 物体 表面 结构 组 织 排 列 的 重要 信息 以 及 它们 
与 周围 环境 的 联系 。 
图 像 内 容 的 形状 是 揭示 物体 的 本 质 特 征 之 一 ,可 以 针对 面积 (可 用 像素 点 的 个 数 计 
算 ) .环形 性 ( 即 周 长 X 周 长 /面积 , 周 长 也 用 像素 点 的 个 数 表示 ) .主轴 方向 、 偶 心率 、 圆 形 
率 . 连 通 性 .正切 角 等 形状 特征 进行 匹配 。 通 常 来 说 ,图 形 内 容 的 形状 特征 有 两 种 表示 方 
法 : 一 种 是 轮廓 特征 ,一 种 是 区 域 特征 。 前 者 只 用 到 物体 的 外 边界 ,而 后 者 则 关系 到 整个 
形状 区 域 。 这 两 类 形状 特征 的 最 典型 方法 分 别 是 伟 里 叶 描 述 符 和 形状 无 关 甜 。 
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图 像 空 人 
向 关系 ,这 些 关 系 也 可 分 为 连接 /邻接 关系 、 交 秋 / 重 垩 关系 和 包含 /包容 关系 等 。 通 常 
间 位 置信 息 可 以 分 为 两 类 : 相对 空间 位 置信 息 和 绝对 空间 位 置信 息 。 

鉴于 利用 图 像 单 个 特征 检索 的 缺点 ,可 以 综合 利用 图 像 的 颜色 .纹理 ,形状 和 空间 特 
征 的 方法 ,计算 特征 提取 向 量 。 用 户 可 以 根据 需要 调整 各 个 特征 之 间 的 权重 关系 ,以 便 满 
足 不 同 应 用 情况 的 查询 。 例 如 ,综合 形状 特征 和 空间 位 置 关系 特征 可 以 较 好 地 处 理 一 些 
二 值 图 像 。 

基于 视觉 特征 的 图 像 检 索 技 术 能 够 自动 提取 每 幅 图 像 的 视觉 特征 作为 其 索引 ,如 色 
彩 、 纹 理 和 形状 等 ,查询 将 根据 图 像 视觉 特征 进行 相似 性 计算 。 用 户 通过 选择 具有 代表 性 
的 一 幅 或 多 幅 例子 图 像 来 构造 查询 ,然后 由 系统 查找 与 例子 图 像 在 视觉 内 容 上 比较 相似 
的 图 像 , 按 相似 性 大 小 排序 返回 给 用 户 。 另 外 ,基于 视觉 特征 的 图 像 检 索 系 统一 般 还 可 以 
通过 可 视 化 界面 和 用 户 进行 频繁 的 交互 ,便于 用 户 构 造 查询 .评估 和 改进 检索 结果 。 

基于 视觉 特征 的 图 像 检索 系统 的 主要 模块 包括 图 像 分 割 模块 .特征 选择 抽取 模块 、. 索 
引 模 块 ,特征 向 量 索引 库 、. 用 户 界面 .图 像 检索 模块 .相似 性 度量 模块 .相关 反馈 模块 和 显 
示 模 块 。 

为 了 使 基于 视觉 特征 的 图 像 检 索 技术 能 够 应 用 于 大 规模 的 图 像 库 ,必须 采用 有 效 的 
多 维 索 引 技术 ,这 些 技 术 包 括 高 维 索 引 方法 、 降 维 方 法 、 近 似 最 近邻 方法 单一 维 空间 映射 
方法 、 多 重 空 间 填充 曲线 方法 和 基于 过 滤 的 方法 等 类 型 。 


本 章 思考 与 练习 题 


. 图 像 检 索 的 含义 是 什么 ?通常 分 为 哪 两 大 类 ? 
. 简 述 图 像 色彩 三 要 素 和 三 基色 的 内 容 。 

. 图 像 有 哪 三 种 基本 类 型 ? 举例 各 自 含义 是 什么 ? 
. 常用 图 像 文件 格式 有 哪些 ? 

. 用 图 示 说 明 图 像 检索 的 一 般 模型 。 

基于 文本 的 图 像 检索 主要 存在 哪些 局 限 ? 

基于 内 容 的 图 像 检索 系统 主要 有 哪些 特点 ? 

. 图 像 颜色 有 哪些 基本 模型 ? 各 自 含义 如 何 ? 

. 颜色 直方 图 与 累加 直方 图 的 各 自 概念 含义 ? 
10. 用 哪些 特征 量 来 表示 图 像 的 纹理 属性 ? 
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图 像 形 状 特 征 中 的 边界 链 码 是 什么 ? 是 如 何 表示 的 ? 
形状 特征 提取 一 般 应 用 了 哪些 几何 性 原理 ? 

简 述 图 像 形状 特征 提取 的 一 般 描述 原理 。 

说 明 近 年 来 图 像 形状 特征 提取 的 主要 研究 进展 。 

图 像 空间 关系 特征 的 含义 ? 图 像 空间 关系 特征 提取 方法 有 哪 两 类 ? 
单 特 征 图 像 检索 各 自 有 何不 足 之 处 ? 

基于 多 特征 的 图 像 检索 技术 有 哪 几 种 形式 ? 

基于 视觉 特征 的 图 像 检索 系统 由 哪些 主要 功能 模块 组 成 ? 
图 像 分 割 的 概念 含义 ”主要 有 哪些 图 像 分 割 技术 ? 

通常 相似 性 度量 应 满足 哪些 性 质 ? 

图 像 检 索 有 哪些 多 维 索 引 方法 ? 

降 维 方法 的 含义 ? 常用 的 降 维 方法 有 哪些 ? 

你 熟悉 或 接触 过 哪些 典型 的 图 像 检 索 系统 ?请 简要 说 明 。 
图 像 检索 技术 的 主要 发 展 方向 有 哪些 方面 ? 
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声音 是 人 类 获取 信息 和 沟通 交流 的 重要 媒介 。 科 学 研究 表明 : 人 类 获取 的 信息 有 
83% 来 自视 觉 ,11% 来 自 听觉 ,而 其 他 感官 (嗅觉 味觉 .触觉 等 ) 获 取信 息 量 仅 占 6%。 在 
信息 爆炸 的 今天 ,我 们 熟悉 的 Google 和 Baidu 等 这 些 以 文本 信息 (文字 符号 ) 为 主 的 搜索 
引擎 ,在 面 对 大 量 的 图 、 文 . 声 、 视 等 融合 性 的 多 媒体 信息 检索 时 显得 力不从心 ,因此 多 媒 
体检 索 技术 应 运 而 生 。 音 频 信息 是 重要 的 信息 类 型 之 一 ,在 政治 经 济 、 文 化 教育 等 各 个 
领域 发 挥 着 重要 作用 ,而 且 数 据 量 日 益 剧 增 , 如 何 高 效率 地 从 海量 音频 信息 中 查询 并 利用 
所 需 音频 信息 ,已 成 为 信息 用 户 日 益 人 迫切 的 信息 需求 。 音 频 检 索 就 是 通过 音频 特征 分 析 ， 
利用 某 种 相似 性 测度 查找 用 户 感 兴趣 的 音频 信息 内 容 , 是 多 媒体 信息 检索 的 重要 组 成 部 
分 之 一 ,是 目前 国内 外 信息 检索 领域 普遍 关注 的 一 个 热点 。 


8.1 音频 的 特点 


i 音信 号 是 通过 空气 或 某 种 介质 传播 的 连续 波 , 用 电信 号 表示 时 ,在 时 间 上 和 幅度 上 
都 是 连续 的 模拟 信号 。 需 要 检索 的 音频 信息 资源 主要 指 能 够 被 计算 机 处 理 的 数字 化 音频 
(digital audio), 它 将 在 时 间 上 和 幅度 上 都 是 连续 的 模拟 声音 信号 经 过 采样 和 分 层 处 理 ， 
进行 编码 后 得 到 离散 数字 表示 的 数字 信号 并 保存 下 来 。 采 样 频率 越 高 ,分 层 数 越 多 ,数字 
化 的 信号 就 越 能 逼近 原来 的 模拟 信号 。 奎 奈 斯 特 采样 定理 指出 ,如 果 信号 的 带宽 有 限 , 那 
么 只 需要 大 于 或 等 于 带宽 2 倍 的 采样 频率 进行 采样 ,所 得 的 样本 就 可 以 恢复 原始 的 信号 。 
数字 化 音频 的 优点 是 信息 传输 与 保存 不 易 失 真 ,记录 的 音频 信息 只 要 数字 大 小 不 改变 , 记 
录 的 资料 内 容 就 不 会 改变 ,并 且 数 字 化 音频 便于 进行 非 线 形 编辑 ,这 是 模拟 信号 做 不 
到 的 。 


8.1.1 音频 信息 的 基本 特征 
根据 声波 的 特征 ,可 把 音频 信息 分 为 规则 音频 和 不 规则 音频 。 其 中 规则 音频 又 可 以 
分 为 语音 .音乐 和 音效 。 规 则 音频 是 一 种 连续 变化 的 模拟 信号 ,可 用 一 条 连续 的 曲线 来 表 
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示 , 称 为 声波 。 声 音 的 三 个 要 素 是 音调 、 音 强 和 音色 。 声 波 或 正弦 波 有 三 个 重要 参数 : 频 
率 wo ,幅度 A, 和 相位 y, ,这 也 就 决定 了 音频 信号 的 特征 。 

(1) 基 频 与 音调 。 频 率 是 指 信号 每 秒 钟 变化 的 次 数 。 人 对 声音 频率 的 感觉 表现 为 音 
调 的 高 低 ,在 音乐 中 称 为 音 高 ,音调 正 是 由 频率 w 所 决定 的 。 音 乐 中 音阶 的 划分 是 在 频率 
的 对 数 坐标 (10Xlog2) 上 取 等 分 而 得 的 。 

(2) 谐 波 与 音色 。nXwo 称 为 wo 的 高 次 谐 波 分 量 , 也 称 为 泛音 。 音 色 是 由 混 人 基 音 
的 泛音 所 决定 的 ,高 次 谐 波 越 丰 富 ,音色 就 越 有 明亮 感 和 穿 透 力 。 不 同 的 谐 波 具有 不 同 的 
幅 值 A, 和 相位 偏 移 y, ,由 此 产生 各 种 音色 效果 。 

(3) 幅度 与 音 强 。 人 耳 对 于 声音 细节 的 分 辨 只 有 在 强度 适中 时 才 最 灵敏 。 人 的 听觉 
响应 与 强度 成 对 数 关系 。 一 般 的 人 只 能 察觉 出 3 分 贝 的 音 强 变化 ,再 细 分 则 没有 太 多 意 
义 。 我 们 常用 音量 来 描述 音 强 ,以 分 贝 (dB 二 20log) 为 单位 。 在 处 理 音频 信和 号 时 ,绝对 强 
度 可 以 放大 ,但 其 相对 强度 更 有 意义 ,一 般 用 动态 范围 定义 : 动态 范围 =10X log(1/1。) 
(dB) ,其 中 工 为 信号 的 最 大 强度 ,To 为 信号 的 最 小 强度 。 

(4) 音 宽 与 频带 。 频 带宽 度 或 称 为 带宽 , 它 是 描述 组 成 复合 信号 的 频率 范围 。 

音频 作为 一 种 信息 载体 ,可 以 分 为 三 种 类 型 : 一 是 语音 , 它 具 有 字 词 .语法 等 语素 ,是 
一 种 高 度 抽象 的 概念 交流 媒体 ,语音 通过 识别 可 以 转换 为 文本 ,文本 是 语音 的 一 种 脚本 形 
式 ; 二 是 音乐 ,具有 节奏 、 旋 律 和 声音 等 要 素 , 是 人 声 和 乐器 音响 等 配合 所 构成 的 一 种 声 
音 , 音 乐 可 以 用 乐谱 表示 ;三 是 波形 声音 , 即 对 模拟 声音 数字 化 而 得 到 的 数字 音频 信号 , 它 
可 以 代表 语音 、 音 乐 、 自 然 界 声音 和 合成 音响 。 我们 人 耳 能 够 听见 的 音频 频率 范围 是 
60Hz~20kHz, 其 中 语音 频率 大 约 分 布 在 300~~4000Hz, 而 音乐 和 其 他 自然 声响 则 是 全 范 
围 分 布 。 


8.1.2 音频 信息 的 内 容 层次 

音频 内 容 从 整体 上 看 可 以 划分 为 三 个 等 级 : 最 底层 的 物理 样本 级 .中 间 层 的 声学 特 
征 级 和 最 高 层 的 语义 级 (如 图 8-1 所 示 )。 在 物理 样本 级 ,音频 内 容 是 以 媒体 流 的 形式 存 
在 的 ,其 中 包含 原始 音频 数据 和 数字 数据 (如 采样 频率 .量化 精度 和 压缩 编码 方法 等 )。 用 
户 通过 音频 录放 与 编辑 软件 如 CoolEdit 等 以 时 间 为 单位 (单位 可 以 是 毫秒 、 秒 、 分 或 时 ) 
来 检索 和 浏览 音频 内 容 。 中 间 层 是 声学 特征 级 ,声学 特征 是 从 音频 数据 中 自动 抽取 的 , 它 
可 以 分 为 物理 特征 (physical feature) 和 感觉 特征 (perceptual feature) 。 前 者 包括 音频 的 
基 频 ,幅度 和 共振 峰 结 构 等 ,后 者 表达 用 户 对 音频 的 感知 ,例如 音调 、 响 度 和 音色 等 。 感 觉 
特征 一 般 都 在 某 些 物理 特征 之 间 存 在 一 定 的 联系 。 最 高 层 是 语义 级 , 它 是 音频 内 容 、 音 频 
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对 象 的 概念 描述 。 具 体 来 说 ,在 这 个 级 别 上 ,音频 的 内 容 可 以 是 语音 识别 .辨别 后 的 结果 
(文本 ) .音乐 旋律 和 令 事 说 明 等 。 


A 
高 | 音乐 叙事 、 音乐 对 象 描述 …… 语义 级 
感觉 特征 : 音调 、 音 色 、 旋 律 …… Py 
物理 特征 : 幅度 、 过 零 率 …… 声学 特征 级 
代 | 肥 样 率 、 量 化 精度 、 编 码 方案 …… 物理 样本 级 


图 8-1 音频 内 容 的 抽象 层次 


8.2 音频 信息 检索 技术 的 分 类 和 发 展 


音频 信息 可 以 划分 为 语音 .音乐 和 波形 声音 三 种 类 型 ,相应 的 检索 处 理 方法 也 可 以 分 
为 以 下 三 种 : 四 语音 检索 , 即 以 语音 为 中 心 的 检索 ,采用 语音 识别 等 处 理 技术 ,例如 电台 
节目 .电话 交谈 、 会 议 录音 等 ; @ 音 乐 检 索 , 即 以 音乐 为 中 心 的 检索 ,利用 音乐 的 音符 和 旋 
律 等 音乐 特性 来 检索 ,例如 检索 乐器 ,声乐 作品 等 ; @@ 音 频 检 索 , 即 以 波形 声音 为 对 象 的 
检索 ,这 里 的 音频 可 以 是 汽车 发 动机 、 雨 声 、 鸟 叫 等 各 种 声音 ,也 可 以 是 语音 和 音乐 等 ,这 
些 声音 都 统一 用 声学 特征 来 检索 。 


8.2.1 基于 文本 的 音频 检索 

基于 文本 的 音频 信息 检索 是 利用 若干 关键 字 ( 例 如 音频 类 型 .音频 标题 .音频 含义 的 
文本 内 容 描述 的 关键 词 等 ) 组 成 的 查询 来 发 现 匹 配 的 音频 文档 。 而 音频 信息 作为 一 种 不 
透明 的 位 流 , 虽 然 可 以 赋予 名 字 文件 格式 .采样 率 等 外 部 属性 ,但 是 首先 想到 的 一 种 可 行 
的 音频 检索 方法 是 通过 人 工 输入 的 属性 和 描述 ,将 音频 转化 为 文字 进行 检索 。 这 种 方法 
进行 语音 检索 时 效果 显著 ,语音 是 一 种 特殊 类 型 的 音频 ,可 以 与 文本 互相 转换 ,因此 可 以 
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利用 传统 文本 检索 方法 进行 概念 检索 ,获得 更 准确 的 检索 结果 。 

基于 文本 的 音频 检索 主要 借鉴 了 传统 的 文本 检索 技术 (例如 文本 分 类 与 索引 、 概 率 检 
索 等 ) ,在 实践 应 用 方面 是 盛行 的 ,也 受到 了 大 多 数 音频 信息 检索 用 户 的 喜爱 。 而 且 在 获 
取 音 频 信 息 时 ,普通 信息 用 户 不 需要 专业 检索 知识 ,与 获取 文本 信息 的 检索 方法 和 检索 习 
惯 大 体 一 致 就 可 以 满足 音频 信息 的 检索 需要 。 例 如 ,以 “百度 音乐 ”为 例 就 可 以 证 明 这 一 
传统 检索 技术 的 优势 。 见 图 8-2。 


.网 手机 找 歌 听 歌 就 用 斩 度 吾 乐 本 | 

断 歌 榜 ToP100 更 多 热 歌 榜 TOP500 更 多 歌手 榜 To 

| * 致 青春 王菲 b+ 1 -~ 春暖 花 开 那英 b+ 1 ， 林志炫 

~ 大 地 羽泉 p+ 2 ~ 风 吹 麦 浪 ” 李 健 /孙策 》 十 2 * 凤 斩 传 到 

} 最 受 杨宗纬 二 ~ 烟花 易 稚 ”林志炫 十 ~ 杨宗纬 
| 全 一 念 之 间 。 陶 丫 b+ 4 9 干 千 殉 歌 陈 趟 嫉 十 4 ~ 陈奕迅 
上 Gentleman Psy b+ 5 4# 一 首 心 歌 。 吉 克 售 罗 上 十 5 -~ 羽泉 
i 铬 爱 与 妨 忌 。 阿 悄 p+ * 领悟 村 晓 理 p+ 6 -~ 那英 
4 相爱 有 时 尚 委 粳 十 新 流浪 记 杨宗纬 >》 十 ~ 张学友 

3 人 断 了 线 +.。 林志炫 }》 十 8 ~ 吻别 张学友 b+ ~ 邓丽君 
) 我 爱 的 你 严 寅 / 柱 、》 十 9 我 的 歌声 里 曲 帝 婷 。 》 十 ) -~ 王 也 
0 HeresTo AmilLa 十 10 # 稳 稳 的 幸福 陈 奖 迅 。 》 十 10 ~ 王菲 


图 8-2 基于 文本 检索 的 “百度 音乐 "实例 图 


图 8-2 从 实践 上 ,对 于 通过 目录 导航 方式 去 检索 流行 榜 单 音乐 的 作用 是 十 分 明显 的 。 
如 果 需 要 从 流行 音乐 的 分 类 、 歌 手 、 专 题 、 歌 名 甚至 歌词 或 音乐 专辑 等 方式 进行 检索 , 则 提 
供 统一 的 文本 检索 接口 。 见 图 8-3。 


Bai@ 言 乐 友 


| 


图 8-3 基于 文本 检索 的 “百度 音乐 "用 户 查询 接口 界面 图 


由 于 基于 文本 检索 技术 在 第 2 章 到 第 6 章 的 各 章 中 均 有 详细 阐述 ,本章 不 再 歼 述 。 
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8.2.2 基于 内 容 特 征 的 音频 检索 

基于 文本 的 音频 检索 方法 虽然 有 传统 优势 ,但 其 缺点 也 很 突出 : 一 是 当 数据 量 越 来 
越 大 时 ,人 工 注 释 工 作 量 加 大 ;二 是 人 对 音频 的 感知 ,例如 音乐 的 旋律 音调、 音质 等 有 时 
难以 用 文字 表达 清楚 ,人 工 标识 信息 存在 不 完整 性 和 主观 性 ;三 是 不 能 支持 实时 音频 数据 
流 的 检索 。 为 解决 上 述 问题 ,基于 内 容 的 音频 检索 应 运 而 生 。 进 行文 本 检索 时 主要 提取 
文本 的 关键 字 等 特征 ,进行 图 像 检 索 时 主要 提取 图 像 的 颜色 等 特征 ,进行 视频 检索 时 主要 
提取 视频 的 关键 帧 等 特征 。 与 此 类 似 , 基于 内 容 的 音频 检索 (content-based audio 
retrieval) 就 是 通过 从 音频 数据 中 提取 和 分 析 音 频 特 征 信息 ,对 不 同音 频数 据 赋予 不 同 的 
语义 ,使 具有 相应 语义 的 音频 在 听觉 上 保持 相似 。 基 于 内 容 的 音频 检索 基本 系统 结构 如 
图 8-4 所 示 。 


1 

1 

1 
举 丰 [者 频数 据 | 一 >| 特征 提取 | 一， 
| 

1 


和 本 


et i er | 

EN 人 > | 去 量 生成 >。 开 十 | 

数据 库 | 用 | 征 

查询 | 特征 分 类 
1 

全 | 人 一 一 | ' 

| 


图 8-4 基于 内 容 的 音频 检索 系统 结构 


系统 首先 对 音频 数据 进行 特征 提取 ,将 音频 数据 装 入 原始 音频 库 , 同 时 将 特征 装 入 特 
征 库 。 通 过 特征 对 音频 数据 聚 类 ,将 聚 类 信息 装 和 人 聚 类 参数 库 部 分 。 用 户主 要 采用 示例 
查询 (query by example) 方 式 进行 检索 ,通过 查询 界面 确定 样本 并 设 定 属性 值 ,系统 接收 
查询 后 ,对 样本 提取 特征 ,结合 属性 值 确定 查询 特征 矢量 ,然后 检索 引擎 对 矢量 与 聚 类 参 
数 集合 进行 匹配 , 按 相关 性 从 大 到 小 的 顺序 在 特征 库 和 原始 音频 库 中 检 出 一 定数 量 的 相 
应 数据 ,并 通过 查询 接口 返回 给 用 户 。 其 中 原始 音频 库存 放 的 是 音频 数据 ,特征 库存 放 着 
音频 的 特征 数据 , 按 数据 记录 存放 , 聚 类 参数 库 是 对 音频 特征 进行 聚 类 所 得 的 参数 集 。 
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8.3 音频 信息 检索 架构 与 模型 


8.3.1 音频 信息 检索 架构 
基于 内 容 的 音频 信息 检索 构架 见 图 8-5。 


原始 音频 数据 的 预 处 理 


| 

2 | 
|| 数字 化 与 特征 提取 | 上 >| 分 类 识别 摘要 等 | 1 
| 1 
| 1 
| 1 


几 


给 予 检索 


模型 的 ”|《4 二 一 | 用户 查 询 


搜索 匹配 | 4 


图 8-5 ”基于 内 容 的 音频 信息 检索 构架 


首先 是 索引 的 构建 ,通常 是 使 用 各 种 音频 处 理 技术 , 先 对 原始 音频 数据 进行 数字 化 和 
特征 提取 ,获取 其 在 不 同 层次 上 的 抽象 信息 。 例 如 使 用 语音 识别 技术 获取 音频 数据 的 语 
义 ,使 用 音频 分 类 技术 得 到 不 同音 频数 据 的 类 别 信 息 ,结合 自然 语言 处 理 方法 归纳 总 结 音 
频 篇 章 或 段落 的 摘要 等 。 利 用 上 述 这 些 信息 可 构造 不 同类 型 的 索引 库 ,通过 索引 库 可 快 
速 检索 到 所 需 内 容 。 检 索 时 ,根据 用 户 的 查询 请 求 ,通过 检索 模型 利用 索引 库 找 到 查询 请 
求 与 音频 库 中 的 相似 部 分 作为 检索 结果 。 

从 上 面 音频 信息 检索 的 框架 可 以 看 出 ,音频 信息 检索 模型 在 信息 检索 中 处 于 非常 重 
要 的 位 置 。 所 谓 音 频 信 息 检 索 模型 ,就 是 在 对 音频 信息 进行 抽象 表达 的 基础 上 ,通过 构建 
一 种 评测 机 制 能 衡量 用 户 查 询 请 求 与 待 检 音 频 信息 的 相似 度 , 即 提供 一 种 衡量 用 户 查 询 
请 求 与 音频 数据 相似 性 的 方法 。 通 常 可 采取 两 者 之 间 的 距离 或 相似 度 概率 来 体现 它们 之 
间 的 相似 性 程度 。 例 如 ,采用 距离 的 方法 ,两 者 间 的 距离 越 近 ,说 明 它们 的 相似 性 越 高 ,被 
检索 出 来 作为 结果 的 排序 越 靠 前 ;反之 ,被 检索 出 来 作为 结果 的 排列 越 靠 后 。 如 果 用 户 查 
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询 请 求 与 待 检 音 频 没有 任何 相似 性 , 则 非 相关 音频 不 会 出 现在 检索 结果 中 。 

在 各 种 类 型 的 多 媒体 信息 检索 中 ,基于 文本 的 信息 检索 技术 是 重要 基础 ,其 检索 模型 
也 较为 成 熟 。 目 前 的 音频 信息 检索 技术 ,其 模型 很 大 程度 上 借鉴 了 文本 信息 检索 模型 的 
思想 。 典 型 的 模型 包括 向 量 空间 模型 和 概率 模型 。 


8.3.2 向 量 空间 模型 借鉴 

向 量 空间 模型 是 一 种 基于 统计 方法 的 数学 模型 , 它 将 请 求 与 待 检 文 档 都 表示 成 向 量 
的 形式 。 由 于 都 是 从 原点 出 发 向 某 个 方向 延伸 的 射线 ,因此 空间 中 的 各 个 向 量 间 存在 着 
一 个 夹 角 ,可 以 使 用 这 个 夹 角 来 度量 两 个 向 量 间 的 相似 度 。 一 般 使 用 这 个 夹 角 的 余弦 值 
来 计算 向 量 间 的 关系 ,两 射线 夹 角 越 小 相似 度 越 高 。 在 向 量 空间 中 ,查询 请 求 也 以 一 条 射 
线 来 表示 ,这 条 射线 离 哪 个 文档 的 向 量 射线 越 近 , 则 其 夹 角 越 小 ,说 明 与 查询 请 求 越 相关 ， 
检 中 的 可 能 性 就 越 大 ;反之 就 越 不 相关 。 查 询 请 求 与 文件 集合 中 的 所 有 文档 都 可 以 计算 
出 一 个 相似 度 ,然而 不 能 将 所 有 文档 集合 中 的 内 容 都 以 检索 结果 的 方式 呈现 给 用 户 , 因 此 
需要 设 定 一 个 阔 值 ,根据 待 检 文 档 中 的 内 容 与 查询 请 求 的 相关 度 排序 ,只 将 排序 后 相关 度 
大 于 阅 值 的 内 容 作 为 检索 结果 。 

在 向 量 空间 模型 中 ,文档 的 内 容 被 简单 看 成 是 它 所 含有 的 基本 语义 单位 所 组 成 的 集 
合 。 将 这 些 基 本 的 单位 统称 为 特征 项 ,而 原始 数据 文档 就 可 以 用 特征 项 的 集合 来 表示 , 记 
为 D(Ti,T;,…,T,), 其 中 TT, 是 特征 项 ,1 过 m 过 s。 对 于 特征 项 的 集合 中 的 每 一 个 T, ,其 
在 文档 中 的 重要 程度 并 不 相同 ,可 以 赋予 Tv 一 定 的 权重 W, 来 表示 其 重要 程度 的 大 小 。 
此 时 文件 D=DCT ,Wi;Ts ,Ws;…;T,,W,), 简 记 为 D==D(Wi ,Ws,…,W,)。 如 果 和 忽略 
特征 项 Tv 在 文档 中 的 先后 顺序 ,并 要 求 T, 无 异 ( 即 没有 重复 ) ,就 可 以 把 Ti, Ts,…,TT， 
看 做 是 一 个 s 维 坐 标 系 ,而 Wi ,Ws,…,W, 为 在 这 个 坐标 系 中 表示 文档 内 容 的 坐标 值 , 即 
D(Wi ,Ws,，…,W,) 为 s 维 空间 的 一 个 向 量 , 称 其 为 文档 D 的 向 量 表示 。 这 样 查询 请 求 与 
文档 之 间 相 关 度 评价 ,就 可 以 借助 查询 的 向 量 表示 Q 和 文档 的 向 量 D 来 计算 。 

采用 向 量 空间 模型 来 设计 有 效 的 检索 方法 ,需要 解决 以 下 三 个 问题 : 四 如 何 选择 特 
征 项 ; @ 如 何 计算 特征 项 的 权重 ; @ 如 何 计算 查询 向 量 与 文档 向 量 间 的 相似 度 。 

至 于 特征 项 的 选择 ,一 般 用 那些 能 够 完整 表示 一 个 语义 范畴 的 单位 来 作为 特征 项 , 因 
为 这 样 的 特征 项 对 文档 内 容 有 较 高 的 表示 能 力 。 如 在 文本 检索 中 , 常 采用 词 和 短语 等 作 
为 特征 项 。 

在 文本 检索 中 ,最 常 采用 的 特征 项 权重 计算 方法 是 TF-IDF 方法 ,其 基本 思想 是 根据 
特征 项 在 文档 中 出 现 的 次 数 来 度量 权重 的 大 小 ,计算 时 要 用 文档 长 度 来 规定 。 其 中 TF 
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(term frequency) 是 特征 项 频率 ,IDF(inverse document frequency) 是 反比 文档 频率 ,一般 
特征 项 T。 的 反比 文档 频率 计算 如 下 : 
IDF, = lg(F/sn,) (8-1) 
其 中 ,下 为 文档 集中 文档 的 总 数目 ;s,, 为 其 中 含有 了 T。 的 文档 数目 。IDF 反映 了 这 样 
的 一 个 思想 : 如 果 在 大 多 数 文档 中 都 出 现 的 特征 项 的 区 分 能 力 弱 ,所 以 应 给 以 较 低 的 权 
重 ;反之 ,在 少数 文档 中 出 现 的 特征 项 区 分 能 力 较 强 , 应 给 以 较 高 的 权重 。 
TF-IDF 的 计算 方法 综合 了 TF 和 IDF, 采 用 二 者 的 乘积 作为 特征 项 权重 。 文 档 D; 
中 的 特征 项 T, 的 TF-IDF 权重 计算 如 下 : 
Wi = TF;, » IDF,, (8-2) 
其 中 ,TF 为 文档 D; 中 工 。, 的 特征 项 频率 。 
查询 向 量 8 和 文档 向 量 D; 之 间 的 相似 度 SIM(Q,D;) 可 以 采用 向 量 内 积 来 计算 
如 下 : 


SIM(Q,D) = 六 WwW (8-3) 
其 中 ,Wo 为 查询 向 量 中 TT 的 权重 。 或 者 用 夹 角 的 余弦 来 表示 如 下 : 
DI Wo Wo 
SIM(Q,D;) = cos0 二 (8-4) 


(Dwi) (Pw) 


8.3.3 概率 模型 借鉴 

概率 模型 是 一 种 基于 概率 论 原理 ,用 于 解决 相对 不 确定 性 的 信息 检索 模型 。 经 典 的 
基于 概率 的 信息 检索 模型 ,主要 依据 查询 请 求 与 文档 的 相关 度 是 高 于 还 是 低 于 非 相 关 度 
的 概率 来 进行 检索 。 其 基本 思想 是 : 给 定 一 个 用 户 查 询 ,检索 系 统 中 存在 着 一 个 与 该 查 
询 相关 的 理想 命中 结果 集合 (用 S 来 表示 )。 如 果 能 已 知 集合 S 的 主要 特征 及 描述 , 则 用 
户 的 检索 要 求 便 不 难 实现 。 然 而 ,在 用 户 提 供 检索 要 求 时 ,并 不 知道 这 个 理想 结果 集合 的 
特性 。 为 此 ,需要 在 检索 开始 时 针对 S 的 特征 性 进行 某 种 猜测 。 根 据 初 始 的 猜测 ,系统 将 
检索 到 一 个 初步 的 命中 结果 集合 。 在 此 基础 上 ,用 户 可 以 对 初始 检索 结果 中 文档 相关 与 
否 进行 判断 ,或 者 系统 对 检索 结果 文档 的 相关 性 进行 自动 判断 。 根 据 这 些 反馈 信息 ,系统 
便 可 以 在 后 续 的 检索 处 理 中 不 断 做 出 优化 与 改进 ,从 而 在 此 交互 操作 后 使 检索 结果 逐步 
接近 该 查询 的 理想 命中 结果 S。 
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如 果 某 个 文档 存在 几 个子 段 , 则 将 计算 得 到 的 最 大 概率 值 作为 查询 请 求 与 被 检索 文 
档 之 间 的 相似 度 值 。 每 个 被 检索 文档 按 得 到 的 相似 概率 值 递减 排列 形成 检索 结果 。 

对 概率 信息 检索 模型 ,在 实际 使 用 中 也 可 以 只 根据 查询 请 求 与 文档 的 相关 度 ,通过 与 
设 定 的 闵 值 进行 比较 来 确定 检索 结果 。 进 一 步 地 ,基于 贝 叶 斯 定理 可 以 使 用 先 验 概率 代 
替 概 率 来 进行 相似 度 计 算 。 

假设 查询 请 求 为 Q, 第 i 个 被 检索 文档 为 D;, 则 通过 计算 后 验 概率 值 PCDi|Q) 来 判断 
两 者 之 间 的 相似 度 。 根 据 贝 叶 斯 公式 

P(Q | Di)P(D;,) 


P(D; | Q) = PG) 


由 于 对 不 同 的 文件 P(Q) 是 固定 的 ,因此 两 者 之 间 的 相似 性 判断 也 可 以 采用 如 下 的 公式 来 
计算 : 


(8-5) 


P(D; | Q) = P(Q | Di)P(D,) (8-6) 
又 由 于 对 每 个 文档 通常 可 以 认为 其 出 现 的 概率 P(D;|Q) 值 均 相 同 ,因此 在 进行 相似 

性 比较 时 也 可 以 忽略 其 影响 ,这 样 进一步 近似 为 
P(D; | Q) ~ P(Q | D.;) (8-7) 
也 就 是 用 先 验 概率 P(Q|D;) 来 获得 后 验 概率 P(D;|Q)。 因 此 , 先 验 概率 计算 在 概率 
模型 中 起 到 了 重要 作用 ,一 旦 先 验 概率 得 到 ,就 可 以 使 用 它 度量 查询 请 求 与 被 检索 文档 的 
相似 性 。 而 先 验 概率 的 计算 与 概率 模型 的 选择 有 关 , 一 旦 模型 确定 ,就 可 以 使 用 训练 得 到 

的 模型 参数 去 计算 先 验 概率 。 


8.4 表示 级 的 音频 检索 


8.4.1 基于 直接 匹配 的 音频 样 例 检索 

1. 基于 分 段 的 实时 音频 检索 

音频 样 例 检索 既 可 以 应 用 于 检索 静态 音频 数据 库 , 也 可 以 应 用 于 检索 实时 音频 流 。 
相对 而 言 ,检索 实时 音频 流 难度 更 大 、 要 求 更 高 ,算法 需要 更 多 地 考虑 资源 开销 和 计算 速 
度 问 题 。 实 时 音频 流 有 其 自身 的 特点 : 实时 性 强 、 流 过 的 数据 无 法 重 现 , 且 事先 不 能 预 
知 , 如 实时 广播 中 的 电视 信号 数据 。 因 此 ,检索 必须 实时 地 获取 音频 数据 .计算 特征 、 更 新 
检索 模型 ,然后 进行 匹配 计算 。 由 于 实时 音频 流 具 有 不 可 预知 性 ,因此 无 法 利用 索引 方法 
实现 快速 检索 。 

在 音频 样 例 检 索 中 ,通常 将 检索 目标 的 音频 数据 作为 一 个 整体 直接 检索 。 在 整体 直 
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接 检索 方法 中 , 当 输 入 数据 流 中 的 样 例 模板 发 生 部 分 缺失 时 会 增加 检 出 的 难度 ,甚至 无 法 
检 出 。 而 在 实时 检测 中 , 流 过 的 数据 又 无 法 再 现 , 一 旦 检索 时 错过 ,无 法 像 静 态 音 频 检索 
那样 重 现 检 索 。 在 基于 向 量 序列 匹配 的 整体 直接 检索 算法 中 ,计算 代价 往往 随 着 样 例 模 
板 长 度 的 增加 呈 线 性 增长 。 因 此 , 当 样 例 模板 较 长 时 ,整体 直接 检索 方法 不 能 满足 实时 与 
快速 的 应 用 要 求 。 同 时 ,在 实时 音频 检索 中 ,必须 实时 计算 音频 特征 以 便 更 新 检索 模型 ， 
因此 不 能 使 用 计算 复杂 度 大 的 数据 模型 。 

2. 基于 MPEG-1 压缩 域 模糊 分 类 的 音频 检索 方法 

采用 一 种 基于 距离 的 模糊 分 类 法 ,用 隶属 度 刻画 音频 片段 与 类 别 之 间 的 联系 ,认为 每 
个 音频 片段 与 各 个 类 别 中 心 都 有 一 个 隶属 关系 ,对 不 同类 别 之 间 有 交叉 的 数据 进行 有 效 
分 类 ,解决 “ 亦 此 亦 披 ”的 现实 问题 ,使 分 类 结果 更 符合 心理 声学 的 听觉 特征 。 

在 音频 分 类 中 ,人 工 将 音频 分 为 静音 、 纯 语音 、 纯 器 乐音 乐 .歌曲 清唱 、 纯 噪声 ,有 背 
景 的 语音 ` 有 噪声 的 语音 ` 有 噪声 背景 的 音乐 等 类 别 , 设 类 别 数 为 丸 。 然 后 用 统计 的 方法 
得 到 各 类 别 中 心 的 窗 特 征 向 量 , 记 为 {FCi|i 一 1.2.……,7ze)。 

若 第 & 窗 音频 数据 的 特征 向 量 为 FEW*, 则 它 对 各 类 的 隶属 度 值 为 


1 
| FW,— FC; | 


px(j) = (1<j<n) (8-8) 


其 中 ,参数 5b 用 来 决定 对 距离 加 权 的 程度 。 从 而 ,可 得 到 第 k 窗 音 频数 据 的 隶属 度 向 
Na pe 

基于 隶属 度 的 模糊 分 类 结果 明显 优 于 硬 分 类 方法 , 它 可 推广 到 MPEG-1 所 有 单个 层 
次 的 编码 方案 。 检 索 时 ,用 户 首先 在 客户 端 提 交 一 个 MPEG-1 音频 文件 或 文件 中 节选 的 
一 小 段 音频 片段 作为 要 查询 的 音频 样 例 , 记 为 Q==(g;|i 二 1,2,… ,newey) ,其 中 Q 的 长 度 
newery 为 Q 中 包含 的 组 数量 。 将 查询 音频 样 例 划 分 成 nw 个 窗 ,表示 为 


nwn = [zae] 十 1 (8-9) 
mn 


其 中 ,| "ew | 为 向 下 取 整 算 子 。 计 算 每 一 个 窗 的 特征 , 便 可 得 到 音频 样 例 的 窗 特征 
序列 FWoa= {FW;|i=1,2,.… ,nwn}。 

利用 以 上 两 个 公式 计算 音频 样 例 中 每 一 个 窗 对 各 音频 类 别 的 隶属 度 ,得 到 隶属 度 向 
量 序列 pe 一 (Ai 一 1,2，…，zwin}。 

相应 地 ,在 接收 输入 的 实时 流 媒体 音频 数据 时 ,从 MPEG-1 音频 帧 中 提取 每 一 组 的 
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比例 因子 。 当 接收 到 与 样 例 长 度 相等 的 zaww 组 输入 流 数据 后 ,同样 将 其 划分 成 为 ww 个 
窗 ,并 计算 各 窗 的 特征 向 量 进 行 模糊 分 类 ,从 而 得 到 输入 音频 流 的 隶属 度 向 量 序列 ws 二 
{大 |i 二 1,2,… ,nwn)。 输 入 音频 流 与 查询 音频 样 例 的 类 别 相 似 度 定 于 如 下 : 


Sim(posps) = — DY Dmin {1007) ,p507))} (8-10) 


Nwin i=1 j=1 
基于 MPEG-1 压缩 域 模糊 分 类 的 流 媒体 音频 检索 方案 如 图 8-6 所 示 , 可 以 从 流 媒体 
数据 中 快速 检索 到 多 个 任意 长 度 的 音频 信息 。 


提取 比例 计算 |_| 模 灿 
查询 音频 片段 | 一 >| 因子 信息 | 这 | 特征 ?| 分 类 一 


守 一 如 度 4 ) 


检索 结果 ”| 《4 二 一 一 | 搜索 、 


图 8-6 基于 MPEG-1 压缩 域 模糊 分 类 的 流 媒体 音频 检索 方法 


8.4.2 基于 索引 的 音频 样 例 检索 

从 高 维 空间 的 角度 来 看 ,检索 过 程 就 是 给 定 任意 一 个 查询 点 (向 量 ) ,在 数据 库 中 找到 
与 查询 接近 的 点 ,并 能 保证 以 较 高 的 概率 返回 与 查询 最 接近 的 点 。 从 概念 上 讲 , 这 就 很 容 
易 通过 穷 举 法 来 实现 : 计算 数据 库 中 的 所 有 点 与 查询 之 间 的 距离 即 可 选 出 接近 的 点 。 如 
果 数 据 库 的 规模 很 大 或 数据 的 维 数 很 高 , 穷 举 法 的 实践 代价 往往 无 法 接受 。 因 此 ,需要 寻 
找 不 依赖 于 数据 库 线 性 搜索 的 检索 方法 。 

高 维 数据 库 的 索引 存在 “ 维 数 的 魔 吕 ”问题 , 即 索 引 的 复杂 度 随 维 数 的 增加 呈 指 数 增 
长 ,这 一 直 是 索引 研究 领域 中 的 难点 。 音 频数 据 经 过 分 帧 和 特征 提取 后 得 到 的 特征 数据 
不 仅 维 数 高 ,而 且 还 有 时 序 信息 。 这 就 要 求 音频 索引 不 仅 要 解决 数据 维 数 高 的 问题 ,还 要 
在 索引 中 体现 时 序 性 ,这 就 进一步 增加 了 音频 数据 索引 构建 的 难度 。 

1. 局 部 敏感 哈 希 索引 方法 

为 解决 维 数 魔 吕 问题 ,许多 学 者 提出 了 各 种 检索 构建 算法 。 但 无 论 在 理论 或 者 实践 
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上 ,这 些 算法 与 顺序 扫描 相 比 效率 提升 很 小 ,在 一 定 情况 下 效率 甚至 低 于 顺序 扫描 。 近 年 
来 ,为 解决 高 维 向 量 搜索 问题 ,人 们 开始 关注 近似 搜索 问题 ,这 是 因为 在 大 多 数 情 况 下 , 近 
似 最 近邻 搜索 具有 与 确切 搜索 同样 好 的 结果 ,尤其 是 当 距 离 度量 准确 捕捉 用 户 的 需求 时 ， 
两 者 之 间 细 微 的 差别 就 显得 不 那么 重要 了 。 

LSH( 局 部 敏感 哈 希 ) 方 法 产生 于 20 世纪 末 ,近年 来 这 种 方法 开始 应 用 于 音频 信息 检 
索 。LSH 的 思路 是 : 如 果 空 间 中 的 两 个 点 距离 很 近 ,经 过 投影 后 ,这 两 个 点 的 投影 也 会 比 

设 d 是 n 维 空间 S 的 测度 ,如果 从 空间 S 到 UU 的 映射 族 电 == {nh:S 一 U) 对 于 任意 的 
vdES 满足 以 下 两 个 条 件 , 则 该 映射 族 是 (ni ,rz ,pi,p2) 敏 感 的 。 

(1) 如 果 vE B(g,71), 则 概率 P[h(g)==h(v) ] 宇 pi1。 

(2) 如 果 v& BCg,r2), 则 概率 PLh(g) 二 h(v)] 三 ps。 其 中 , 当 4d 是 距离 测度 ,BCd,r) 一 
{fv:d(g,v) 二 7r} 时 ,pi 放 pz 且 过 rz; 当 4d 是 相似 测度 Bl(g,rni)= 二 {fv:d(g,v) 宇 r} 时 ,pi 
Pz, ri>r, 

2. 基于 局 部 敏感 哈 希 倒 排 索 引 的 检索 方法 

倒 排 索引 (inverted index) ,也 称 为 倒 排 文件 (inverted file) ,是 大 型 信息 检索 中 使 用 
最 广泛 的 文件 索引 方法 。 所 谓 “ 倒 排 表 示 依 据 检索 属性 来 列举 相关 文件 ,是 基本 的 信息 
查询 方法 之 一 。 由 于 其 快速 高 效 的 特性 , 倒 排 索 引 在 当今 谷歌 .百度 等 成 熟 的 基于 文本 搜 
索引 擎 中 被 广泛 使 用 。 然 而 ,在 基于 内 容 的 音频 检索 中 ,由 于 音频 特征 具有 高 维 非 字 符 的 
特性 ,很 难 直 接 将 倒 排 索引 技术 应 用 其 中 。 但 如 果 在 LSH 对 音频 片段 向 量 量化 结果 的 基 
础 上 构造 倒 排 索引 , 则 有 望 获得 更 好 性 能 。 

(1) 倒 排 索引 简介 。 所 谓 倒 排 索引 ,是 描述 一 个 词 项 集合 (TERMS) 元 素 和 一 个 文档 
集合 (DOCS) 元 素 对 应 关系 的 数据 结构 , 记 为 

DOCS = (dd dp) (8-11) 
TERMS = {i,t2,.°%* ,Lp} (8-12) 

其 中 ,D 为 文档 集合 大 小 ;M 为 词 项 集合 的 大 小 。 当 以 “文档 ”为 出 发 点 时 ,可 以 称 文 
档 di; 中 包括 某 些 项 4;, 或 者 词 项 4; 在 文档 d; 中 出 现 了 多 少 次 。 而 “ 倒 排 索 引 ” 直 接 给 出 
的 是 一 个 4 出 现在 哪些 di 中 ,进而 还 可 以 有 它 在 d; 中 出 现在 哪些 位 置 。 用 PL(i;) 表 示 
4 出 现 于 其 中 的 文档 记录 的 集合 , 称 为 对 应 于 4 的 倒 排 表 (inverted list) ,下面 是 关于 倒 
排 索引 的 几 个 相关 量 。 

QE: 文档 集合 的 大 小 。 

@ 5; 二 |PL(4)|: 词 项 在 文档 中 出 现 的 个 数 。 
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四 DPC ) 一 坪 : 词 项 4 在 文档 中 出 现 的 频率 。 

@ IDF(C5) 三 一 lgDF(5): 倒置 文档 频率 ,又 称 反 文档 频率 ,其 值 越 小 表示 出 现 频率 
越 高 。 

@ /5 : 第 j 个 词 项 4 在 第 i 个 文档 d; 中 出 现 的 次 数 。 

@ Ti = /ij : 第 i 个 文档 di 中 包含 的 所 有 词 项 的 个 数 。 


@ TFCD)= 阁 ， 词 项 六 在 第 ;个 文档 册 中 出 现 的 频率 , 即 词 频 。 

@ ITF;(j) 二 一 lgTFi(4j): 倒置 词 频 , 值 越 小 表示 词 项 出 现 的 频率 越 高 。 

从 数据 结构 上 看 , 倒 排 文件 分 为 两 个 部 分 , 第 一 部 分 是 由 不 同 词 项 组 成 的 索引 , 称 为 
词 表 ;第 二 部 分 由 每 个 词 项 出 现 过 的 文档 集合 构成 , 称 为 记录 文件 ,每 个 词 项 的 对 应 部 分 
成 为 合 排 表 ,也 称 为 记录 表 , 可 以 通过 词 表 访问 。 

(2) 基于 局 部 敏感 哈 希 的 倒 排 索引 。 在 LSH 方法 中 ,每 个 片段 向 量 经 过 二 个 哈 希 函 
数 映 射 后 生成 个 哈 希 值 ,一 个 音频 文件 车 有 mn 个 片段 , 则 将 被 LSH 映射 成 二 组 哈 希 函 
数值 序列 , 亦 即 组 桶 号 序列 。 见 图 8-7。 


Si Si02) gl(v3) Si) | 


oa gov) galv3) so | 


gr(v1) Sr(72) gL(v3) gi(v4) 


图 8-7 及 w 个 片段 的 音频 文件 经 LSH 映射 后 的 结果 


将 桶 号 设置 上 界 和 下 界 ,分 别 为 Bucketwss 和 Bucketwss ,超过 界限 的 桶 号 一 律 当 做 界 
限 值 处 理 , 即 
Bucketnss shi,s (x) 三 Bucketny 
hs(x) = 4h (xz), Bucketmns < has(x) < Bucketmy (8-13) 
Bucketmn ,hos (7) 一 Bucketain 
(3) 基于 局 部 敏感 哈 希 侄 排 索引 的 搜索 。 在 侄 排 索引 中 ,无 法 体现 词 项 与 词 项 之 间 
的 顺序 关系 , 即 无 法 体现 音频 的 时 序 性 。 为 了 解决 这 一 问题 ,可 以 使 用 一 种 在 查找 文档 时 
所 有 查询 词 项 邻近 的 策略 , 即 邻 近 搜 索 (proximity search) 。& 词 邻 近 搜索 方法 试图 找寻 
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在 所 有 文档 中 使 A 个 查询 词 全 部 靠近 的 区 域 。 算 法 的 复杂 性 既 不 取决 于 查询 词 之 间 在 文 
档 中 的 最 大 间隔 距离 ,也 不 取决 于 查询 词 的 个 数 k。 使 用 这 种 技术 ,可 以 在 倒 排 索引 检索 结 
果 的 排序 中 考虑 查询 词 在 文档 中 的 邻近 关系 ,从 而 能 在 一 定 程 度 上 兼顾 音频 的 时 序 关 系 。 

车 用 TT 二 TL1,… ,下 表示 一 个 词 项 数 为 F 的 文档 ,Keyi ,… ,Keyx 表示 给 定 查询 关键 
词 ,pj 表示 文档 了 中 查询 关键 词 Key; 第 7) 次 出 现 的 位 置 , 则 初级 的 & 词 邻近 搜索 定义 如 
下 : 当 给 定 & 个 关键 词 Keyi ,… ,Keys 和 它们 在 文档 本 二 T[1,… ,Fj 中 的 位 置 2 ,邻近 搜 
索 就 是 要 在 [1,… ,下 ] 中 找到 区 间 [7,rj ,这 个 长 度 为 ri 的 区 间 包 含 了 所 有 k 个 关键 词 ,其 
中 关键 词 的 顺序 在 区 间 中 是 随意 的 。 

由 于 不 知道 关键 词 在 文档 中 的 顺序 ,因此 在 上 述 方法 中 ,区 间 内 关键 词 的 顺序 可 以 是 
随意 的 。 而 关键 词 以 固定 顺序 出 现 的 区 间 , 则 是 搜索 结果 集合 的 一 个 子 集 。 如 果 一 个 区 
间 不 存在 包含 所 有 上 & 个 关键 词 的 子 区 间 , 则 称 它 是 最 小 区 间 。 当 个 关键 词 的 总 数 为 nn 
时 ,区 间 的 数量 为 n(n 一 1)/2, 其 中 最 大 部 分 区 间 是 无 用 的 ,只 需 找到 其 中 包含 所 有 关键 
词 的 最 小 区 间 即 可 。 在 & 词 邻近 搜索 中 有 两 种 算法 : 一 种 是 基于 平面 扫描 算法 (plane- 
sweep algorihm) , 另 一 种 是 基于 分 治 的 方法 (divide and conquer approach) 。 

Q@ 基于 平面 扫描 算法 的 邻近 搜索 具体 步 又 如 表 8-1 所 示 。 

表 8-1 基于 平面 扫描 算法 的 邻近 搜索 具体 步骤 
步 ”了 双 内 容 
1 对 每 个 关键 词 Keyi (i 二 1,…,k) 的 位 置 六 07 二 15) 进行 排序 ,生成 位 置 列表 
弹出 每 个 位 置 列表 最 顶端 的 元 素 Py (j 二 1,… .ni) ,根据 它们 的 位 置 对 各 关键 词 
进行 排序 ,找到 最 左 和 最 右 的 关键 词 及 其 位 置 h 和 ni, 令 i 二 1 
从 最 左 关键 词 的 位 置 列表 中 找 出 顶端 元 素 p, 如 果 列 表 为 空 , 转 步骤 6, 如 果 p 二 ri， 
那么 区 间 [LL; ,rij] 是 最 小 化 的 ,根据 该 区 间 大 小 ri-l; 将 其 插入 到 一 个 堆 中 
4 在 区 间 中 移 除 最 左 关 键 词 .同时 从 该 关键 字 的 位 置 列 表 中 弹出 顶端 元 素 p 
如 果 [Lli ,rij 是 最 小 区 间 . 令 xin 二 pp,liti 为 区 间 中 第 二 个 关键 词 的 位 置 g, 否 则 令 
lit1 二 min (p,q) ,更 新 区 间 和 区 间 中 关键 字 的 顺序 , 令 ;一 ;十 1, 转 步 又 3 
6 对 堆 中 的 区 间 进 行 排序 ,并 输出 结果 


5 


@ 基于 分 治 方法 的 & 词 邻近 搜索 。 在 基于 平面 扫描 的 算法 中 ,需要 将 所 有 关键 词 的 
位 置 进行 排序 。 然 而 ,如 果 某 个 关键 词 出 现 的 频率 很 低 , 则 其 他 关键 词 的 一 些 位 置 可 以 不 
进行 排序 而 直接 丢弃 。 因 此 ,可 以 引入 一 种 不 需要 排序 的 基于 分 治 的 搜索 方法 ,步骤 如 
表 8-2 所 示 。 
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表 8-2 ”基于 分 治 的 搜索 步骤 
步骤 内 容 
1 | 找到 关键 词 的 个 位 置 的 中 间 位 置 Mid 


扫描 位 置 列表 ,并 将 位 置 列表 分 为 Left 和 Right 两 个 列表 ,其 中 Left 列表 包含 了 比 Mid 大 的 位 
2 | 置 ,Right 包含 了 比 Mid 小 的 位 置 ,保留 Left 中 每 个 关键 词 的 最 大 位 置 和 Right 中 每 个 关键 词 
的 最 小 位 置 


3 | 使 用 平面 扫描 算法 找到 Left 和 Right 之 间 的 最 小 区 间 ,这 些 区 间 用 最 后 一 步 保留 的 位 置 所 表示 
4 | 如 果 列 表 Left/Right 包含 了 所 有 A 个 关键 词 ,那么 递归 地 在 Left/ Right 中 寻找 最 小 区 间 


3. 基于 树 与 链表 混合 索引 的 检索 方法 

(1) 模糊 直方 图 模型 。 从 每 一 帧 音频 数据 计算 归 一 化 响 度 特征 向 量 半 = (zi ,x2，*…， 
ZNeer/2)， 其 中 Nzer 为 傅 里 叶 变 换 长 度 。 若 将 该 向 量 中 的 每 个 分 量 二 元 组 表示 为 (fi4,zx4)， 
其 中 f 表示 k 次 谐 波 的 频率 值 ,ze 表示 A 次 谐 波 的 归 一 化 响 度 值 ,那么 归 一 化 响 度 向 量 
可 看 成 是 二 元 组 的 集合 。 集 合 中 的 每 个 元 素 分 布 在 不 同 的 频率 上 ,这 样 便 可 将 集合 中 的 
元 素 映 射 到 “频率 - 响 度 ”二 维 平面 上 的 一 个 点 ,为 了 叙述 方便 , 称 之 为 特征 点 。 将 该 二 维 
平面 划分 成 为 Nau 个 区 域 ,每 个 区 域 和 直方 图 的 一 个 直方 条 ( 桶 ) 相 对 应 ,并 使 用 隶属 度 函 
数 表 示 一 个 特征 点 属于 某 个 直方 条 的 程度 。 在 音频 数据 的 分 析 中 ,认为 一 个 频率 子 带 中 
的 特征 点 对 另外 一 个 频率 子 带 的 隶属 度 为 0, 而 且 一 个 频率 子 带 内 部 的 特征 点 与 该 子 带 
中 的 一 个 响 度 值 区 间 相 关 。 这 样 一 段 音 频 信 号 S 就 可 以 用 一 个 含 Nae 个 直方 条 的 模糊 直 
方 图 表示 为 FC(S) 二 [fi,f2，… ,fnsj, 其 中 


hy (8-14) 

其 中 , Nopu 为 一 段 音频 信号 的 特征 点 总 数 (等 于 帧 数 X Ngrz);Am (让 为 第 j 个 特征 点 
对 第 i 个 直方 条 的 隶属 度 。 

由 于 音频 帧 中 大 部 分 谐 波 分 量 的 响 度数 值 都 比较 小 ,只 有 少数 谐 波 分 量 的 响 度 数值 
相对 突出 一 些 , 因 此 在 直方 图 按 数 量 统计 响 度数 值 时 ,这 些 最 响 的 谐 波 分 量 虽 较 能 体现 数 
据 帧 间 的 差异 ,但 由 于 数量 较 少 而 被 其 余 的 多 数 谐 波 分 量 所 “淹没 ”, 对 直方 图 的 贡献 小 ， 
从 而 削弱 了 直方 图 对 音频 数据 差异 的 分 辨 能 力 。 为 了 增强 直方 图 对 音频 数据 差异 的 分 辨 
能 力 , 在 直方 图 中 只 统计 这 些 响 度 突出 的 谐 波 分 量 。 

将 所 有 频率 分 量 分 成 两 个 集合 ,在 直方 图 中 再 统计 这 些 响 度 的 谐 波 分 量 集合 ,这 两 个 
集合 中 元 素 的 响 度 平均 值 差 距 明 显 , 可 按 如 表 8-3 所 示 的 方法 选择 响 度 突出 的 分 量 。 
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表 8-3” 响 度 突出 分 量 的 选择 步 又 
步骤 内 容 


初始 化 : 设 一 帧 音频 数据 的 归 一 化 响 度 特征 向 量 为 X 一 (zzs,…,zwrrr2) ,集合 S 置 为 空 集 ， 
表示 选中 的 谐 波 分 量 集合 ,集合 0 三 (1,2,… ,Neer/z) 包 含 初始 的 全 部 Ners 个 谐 波 分 量 的 编号 


2 | 在 集合 O 中 ,将 响 度 最 大 的 m 个 谐 波 分 量 k ,ks，,… ,ks 从 集合 O 移 到 集合 S 
在 集合 O 中 ,将 响 度 最 大 的 一 个 谐 波 分 量 的 编号 选 出 , 设 为 k" ,其 响 度 为 zw ,计算 集合 O 中 剩 


3 | 余 谐 波 的 响 度 均值 9。 
考虑 不 等 式 ， 
4 k /Tavg TK 
re 
。 | 其中 以 为 大 于 1 的 常数 ,如 果 上 式 成 立 则 将 名 加 入 集合 5, 转 Step3; 将 归 一 化 响 度 向 基 X= 


(azar sznper/2) 中 不 在 集合 中 的 谐 波 分 量 响 度 沉 零 ,算法 结束 


该 算法 可 以 自动 根据 一 帧 音频 信号 的 “ 响 度 -频率 ”分 布 情况 将 响 度 突出 的 分 量 选 出 。 

响 度 突出 的 分 量 不 仅 数 量 较 少 , 在 频 域内 的 分 布 稀 跑 , 而 且 数 值 差 距 也 较 小 。 由 于 纯 
音信 号 在 频 域 上 的 掩蔽 阔 值 下 降 较 快 , 响 度 突出 的 分 量 间 发 生 掩蔽 效应 的 可 能 性 也 大 大 
减 小 。 因 此 ,从 降低 算法 复杂 度 和 实际 应 用 对 计算 精度 的 要 求 两 个 方面 考虑 ,采用 响 度 突 
出 的 分 量 并 忽略 掩蔽 效应 是 合理 的 。 

直方 图 之 间 的 相似 度 度 量 方法 有 多 种 ,其 中 直方 图 交集 相似 度 方法 是 一 种 快速 有 效 的 
度量 方法 。 输 入 音频 数据 工 与 样 例 模板 R 之 间 的 直方 图 交集 相似 度 计算 方法 定 于 如 下 : 
pp min (ff,fD E919) 

其 中 ,FR 二 [ 度 ， 序 ,…，/。] 为 样 例 模板 ;F' 二 [ 放 ， 月 ,…, /如 ] 为 输入 模板 ; Na 为 
直方 图 包含 的 直方 条 数量 ;sum(F? ) 为 对 直方 图 的 所 有 直方 条 数值 求 综 合 。 这 样 定 义 的 
相似 度 可 以 反映 不 同 的 音频 数据 是 否 存在 相互 包含 的 关系 。 

(2) 树 与 链表 混合 索引 构造 。 对 于 任意 三 个 直方 图 FF: 和 Fs, 直方 图 交集 相似 度 
具有 如 下 性 质 : 


SCF*,F') 


S(Fi,F;,+tF,) > SC(F,,F;,) (8-16) 

其 中 ,直方 图 做 加 法 运算 是 将 对 应 的 直方 数值 相 加 作为 结果 直方 图 的 数值 。 如 果 相 
似 度 阀 值 为 Sa , 且 长 度 不 同 的 两 段 音 频 信号 存在 包含 关系 , 则 这 两 段 视频 的 直方 图 相似 
度 必定 不 小 于 Ss。 根据 这 个 特点 ,可 以 基于 直方 图 模型 ,采用 链表 与 二 又 树 相 结 合 的 数 
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据 结构 为 音频 数据 构造 索引 。 
(3) 基于 数 与 链表 混合 索引 的 搜索 。 由 于 直方 图 交集 相似 度 的 特点 ,在 索引 构造 中 ， 
随 着 索引 层次 的 增加 ,可 能 出 现 这 样 的 情况 : 样 例 模板 与 某 个 非 叶 节点 的 相似 度 大 于 阅 
值 Su ,但 该 节点 却 不 包含 样 例 音频 。 如 果 这 样 情况 的 出 现 频率 超过 50% (使 用 二 又 树 结 
构 ), 则 会 降低 使 用 索引 的 检索 效率 。 从 概率 统计 的 角度 看 ,这 种 情况 的 出 现 频率 和 两 者 
实践 长 度 的 比值 有 关 。 假 设 两 段 音频 信号 的 时 间 长 度 比值 不 大 于 2Dsmx 信 时 ,相似 度数 值 
能 有 效 反映 真实 情况 , 即 能 根据 相似 度数 值 正 确 判断 二 者 间 是 否 有 包含 关系 , 称 Dwwx 为 相 
似 度 最 大 允许 深度 ,其 数值 与 所 采用 的 特征 及 匹配 模型 有 关 。 那 么 , 当 在 索引 树 的 第 i 层 
搜索 长 度 为 21。 的 音频 段 时 , 则 可 使 用 索引 树 i~i 十 Dmx 层 (与 倍数 2Dwox 对 应 ) 间 的 节点 
进行 快速 搜索 。 可 以 试验 证 明 输入 模板 长 度 分 别 是 样 例 模 板 长 度 的 2 倍 .4 倍 .8 倍 、16 
倍 时 的 相似 度 变 化 情况 。 
检索 时 应 该 根据 样 例 音频 的 长 度 在 检索 树 中 选择 合适 的 层次 范围 来 搜索 。 若 样 例 音 
频 的 长 度 为 i ,搜索 层次 下 限 Lower 为 
Lower = | logz (tr/1o) | (8-17) 
其 时 间 粒 度 记 为 22™4o , 即 在 索引 树 中 选择 时 间 粒 度 不 大 于 检索 目标 长 度 的 最 高 层 
次 。 搜 索 的 层次 上 限 为 
Upper = Lower 十 Dnsx (8-18) 
在 将 音频 数据 划分 片段 建立 索引 时 ,片段 的 边界 可 能 和 数据 中 包含 的 样 例 音频 边界 
不 重合 。 检 索 时 使 用 直方 窗 从 目标 音频 初始 位 置 取出 长 度 为 2""“z 的 音频 数据 建立 样 
例 模板 ,并 在 索引 树 中 层 Lower 一 Upper 按 深 度 优 先 遍历 原则 搜索 样 例 模板 。 
(4) 时 间 复 杂 度 分 析 。 设 检索 源 的 数据 长 度 为 i,, 样 例 的 长 度 为 灵 : 索 引 中 叶 节点 的 
时 间 长 度 为 , 帧 速率 是 FPS({rames per second), 且 样 例 在 检索 源 中 共 出 现 Nk 次 。 如 
果 不 采用 索引 结构 ,在 检索 源 中 用 直方 窗 截取 一 段 长 度 与 样 例 相同 的 数据 进行 匹配 ,并 逐 
帧 向 前 移动 ,匹配 的 总 数 为 (1, 一 tr)FPS 次 ,时 间 复 杂 度 为 O(1, 一 ie)。 采 用 索引 后 ,匹配 
次 数 约 为 
Naaa 一 2 [4/(2Umto) | 十 2DuNR 
一 2 [2./2bee ce 人)22.to) | 十 2DuNR 
ls/ 2D tg) 十 2DaNR (8-19) 
时 间 复 杂 度 为 O(t,/(2B-1lg) 十 2DwwxNg)。 若 i 较 大 、Ne 较 小 , 则 时 间 复 杂 度 约 为 
O(4,/ (28 tg))。 采 用 索引 后 ,检索 的 速度 将 有 大 幅度 提高 ,并 且 检 索 目 标 长 度 越 大 ,检索 
速度 越 快 ,二 者 成 正比 关系 。 该 索引 方法 的 不 足 是 采用 直方 图 模型 会 导致 存储 开销 大 。 
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8.4.3 基于 GPU 通用 计算 的 音频 样 例 快速 检索 

面 对 海 量 的 实时 多 媒体 数据 ,检索 速度 一 直 是 检索 处 理 的 关键 问题 之 一 。 提 高 检索 
速度 可 以 同时 从 两 个 方面 进行 : 从 软件 方面 改进 检索 算法 降低 计算 复杂 度 ; @ 通 过 硬 
件 平台 提高 检索 过 程 的 计算 速度 。NVIDIA 公司 于 1999 年 提出 了 图 形 处 理 器 (graphic 
processing unit,GPU) 的 概念 。GPU 在 处 理 大 量 数据 的 并 行 计算 方面 明显 优 于 中 央 处 理 
器 (central processing unit,CPU) ,目前 已 逐渐 形成 一 个 利用 GPU 进行 通用 计算 的 热潮 。 
在 生命 科学 、 计 算 流 体 动力 学 、 医 疗 成 像 等 领域 ,已 有 很 多 研究 成 果 出 现 。 在 音频 处 理 研 
究 领 域 ,国外 学 者 从 2007 年 开始 利用 GPU 对 海量 数据 进行 处 理 。 

1. 通用 图 形 处 理 器 统一 计算 机 设备 框架 

(1) 通 用 图 形 处 理 器 。 随 着 芯片 制造 工艺 的 不 断 提 高 ,GPU 拥有 越 来 越 强大 的 数据 
处 理 能 力 , 如 强大 的 并 行 处 理 能 力 和 可 编程 流水 线 ,可 以 处 理 非 图 形 数据 。 基 于 GPU 的 
通用 计算 是 指 用 GPU 来 计算 原本 由 中 央 处 理 器 处 理 的 通用 计算 任务 ,这 些 通用 计算 常常 
与 图 形 处 理 没有 任何 关系 。 在 单 指令 多 数据 (single instruction multiple data,SIMI) 且 数 
据 处 理 的 运算 量 远 大 于 数据 调度 和 传输 的 需要 时 ,通用 图 形 处 理 器 在 性 能 上 大 大 超越 了 
传统 的 中 央 处 理 器 。 

GPU 由 图 形 处 理 单元 和 可 编程 处 理 单元 两 部 分 组 成 。 传 统 GPU 的 可 编程 处 理 单元 
由 定点 着 色 单 元 和 像素 着 色 单 元 两 种 类 型 组 成 。 它 们 分 别 用 于 处 理 3D 图 像 中 的 集合 图 
元 操作 和 纹理 滤波 。 由 于 这 两 种 可 编程 单元 的 数量 固定 ,传统 的 GPU 体系 架构 无 法 很 好 
地 满足 定点 流水 线 和 像素 流水 线 之 间 的 负载 平衡 ,从 而 导致 效率 的 降低 。 特 斯 拉 (Tesla) 
架构 的 GPU 使 用 统一 着 色 单 元 执行 定点 着 色 程序 和 像素 着 色 程 序 , 当 执行 通用 计算 任务 
时 统一 着 色 单 元 又 称 为 统一 处 理 单元 。 由 于 传统 GPU 只 能 使 用 其 中 的 可 编程 像素 着 色 
单位 ,而 基于 特 斯 拉 架 构 的 GPU 可 以 使 用 全 部 的 可 编程 处 理 单元 ,因此 可 以 获得 更 高 的 
执行 效率 。 特 斯 拉 架 构 的 GPU 由 存储 器 系统 和 可 扩展 流 处 理 器 阵列 (scalable streaming 
processor array,SPA) 两 部 分 组 成 ,它们 之 间 通 过 总 线 相连 ,并 可 以 分 别 根据 需求 独立 扩 
展 。 存 储 器 系统 由 三 部 分 组 成 : 存储 器 控制 器 .固定 功能 的 光栅 操作 单元 和 二 级 纹理 缓 
存 。 其 中 ,存储 器 控制 器 用 于 控制 片 外 动态 随机 存储 显存 ,光栅 操作 单位 用 于 对 存储 器 内 
的 数据 进行 颜色 和 深度 操作 。 可 扩展 流 处 理 器 阵列 由 若干 线程 处 理 器 群 组 成 ,每 个 线程 
处 理 器 群 又 由 多 个 流 多 处 理 器 组 成 。 流 多 处 理 器 由 六 部 分 组 成 : 流 处 理 器 .特殊 运算 单 
元 、 多 线程 取 值 发 射 单元 、 指 令 缓 存 . 只 读 常量 缓存 和 读 写 共享 存储 器 , 它 包 含 独立 的 完整 
前 端 ,但 一 个 线程 处 理 器 群 中 的 所 有 流 多 处 理 器 共享 同一 套 存 储 器 流水 线 。 
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(2) 统一 计算 设备 框架 。 统 一 计算 设备 框架 (compute unified device architecture， 
CUDA) 是 显卡 厂商 NVIDIA 于 2007 年 推出 的 不 需 借助 图 形 学 API 就 可 以 使 用 类 C 语 
言 进 行 通用 计算 的 开发 环境 和 软件 体系 。CUDA 是 与 硬件 无 关 的 ,程序 经 过 一 次 编译 后 
就 可 以 在 支持 CUDA 的 不 同 规格 GPU 上 运行 。 它 被 广泛 应 用 于 天 文 计算 .生物 计算 ` 流 
体力 学 模拟 .音频 编 解码 、 图 像 处 理 等 诸多 领域 。 

Q@ CUDA 的 运行 方式 。CUDA 的 基本 思想 是 将 计算 任务 映射 为 大 量 的 可 并 行 执行 
的 线程 ,程序 执行 时 硬件 会 动态 调度 这 些 线程 的 运行 ,对 并 行 度 高 的 数据 处 理 任务 能 有 效 
发 挥 GPU 的 处 理 优 势 。 在 CUDA 模型 中 ,CPU 作为 终端 ,而 GPU 作为 写 处 理 器 运行 一 
些 能 够 被 高 度 线程 化 的 程序 。 

运行 在 GPU 上 的 程序 称 为 核 函 数 (kernel)。 核 函数 采用 线程 网 格 (grid) 的 组 织 形 
式 , 每 个 线程 网 格 由 多 个 线程 块 (block) 组 成 。 核 函数 的 执行 单位 是 线程 块 ,各 个 线程 块 
并 行 执行 ,彼此 独立 无 法 通信 ,没有 执行 顺序 。 线 程 网 格 中 线程 块 的 数量 取决 于 问题 的 规 
模 , 而 与 具体 硬件 设备 无 关 。 同 一 个 线程 块 内 的 线程 可 以 彼此 通信 协同 工作 ,这 一 特性 显 
著 提 高 了 程序 的 执行 效率 。 由 于 一 个 线程 块 中 的 线程 需要 共享 数据 ,因此 它们 必须 在 同一 
个 流 多 处 理 器 中 发 射 ,线程 块 中 的 每 个 线程 被 发 射 到 流 处 理 器 上 执行 。 线 程 块 和 流 多 处 理 
器 是 多 对 一 的 关系 , 即 一 个 线程 块 被 分 到 一 个 流 多 处 理 器 ,一 个 流 多 处 理 器 在 同一 时 刻 可 以 
有 多 个 活动 的 线程 块 等 待 执行 。 这 样 ,可 以 有 效 地 隐藏 时 延 ,提高 执行 单元 的 利用 率 。 

CUDA 采用 单 指令 多 线程 的 执行 模型 。 单 指令 多 线程 是 对 单 指令 多 数据 执行 模型 
的 一 种 改进 ,两 者 的 主要 区 别 在 于 以 下 两 方面 : 单 指令 多 数据 程序 必须 知道 每 条 指令 的 
宽度 ,向 量 的 宽度 受到 硬件 的 限制 ,数据 在 打包 成 向 量 后 才 可 以 被 处 理 。 单 指令 多 线程 隐 
藏 了 GPU 硬件 warp 指令 的 宽度 ,硬件 能 够 自 适应 不 同 的 执行 宽度 。 一 个 线程 块 中 线 
程 ] 数 可 以 在 1 一 512 取 值 ,它们 组 成 若干 个 线程 束 ,每 个 线程 束 可 通过 一 个 warp 指令 执 
行 。 如 果 CUDA 采用 单 指令 多 数据 的 执行 模式 , 则 每 个 线程 块 的 宽度 都 必须 与 warp 指 
令 的 宽度 相应 ,这 会 很 大 程度 上 降低 编程 的 灵活 性 。 一 个 单 指令 多 数据 向 量 中 的 各 个 元 素 
共享 寄存 器 资源 ,不 用 考虑 同步 问题 ,向 量 之 间 的 通信 比较 方便 ; 单 指令 多 线程 中 每 个 线程 
都 有 自己 的 私有 寄存 器 ,为 了 实现 线程 间 通 信 ,CUDA 引入 了 共享 存储 器 和 同步 机 制 。 

@ CUDA 存储 器 体系 模型 。CUDA 的 存储 器 模型 中 有 六 种 存储 器 : 寄存 器 .局 部 存 
储 器 、 共 享 存储 器 、 全 局 存储 器 .常量 存储 器 和 纹理 存储 器 ,其 中 各 个 存储 器 的 特点 如 
表 8-4 所 示 。 

线程 拥有 自己 的 寄存 器 和 局 部 存储 器 ,线程 块 内 的 线程 共用 一 块 共享 存储 器 ,线程 网 
格 内 的 所 有 线程 可 以 访问 同一 块 全 局 存储 器 及 只 读 存 储 器 、 纹 理 存储 器 和 常量 存储 器 。 
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表 8-4 CUDA 各 个 存储 器 的 特点 

存储 器 特 点 
寄存 器 GPU 片 内 的 一 种 高 速 缓存 ,对 于 每 个 线程 来 说 是 私有 的 ,访问 延迟 很 低 
对 于 每 个 线程 也 是 私有 的 ,访问 延迟 很 大 ,如 果 寄 存 器 被 耗 尽 ,数据 将 被 存储 在 局 部 存 
储 器 中 
一 种 GPU 片 内 高 速 存储 器 ,其 读 写 速度 几乎 与 寄存 器 一 样 快 ,同一 个 线程 块 内 的 所 有 
线程 都 可 以 对 其 进行 读 写 , 它 是 线程 间 通 信 的 最 好 方式 
位 于 显存 中 ,GPU 和 CPU 都 可 以 对 其 进行 读 写 ,全 局 存储 器 能 够 提供 很 高 的 带宽 ,但 其 
访问 延 时 也 很 高 ,因此 为 了 有 效 利用 全 局 存储 器 必须 严格 遵守 合并 访问 的 要 求 
位 于 显存 的 一 小 块 只 读 存 储 空间 ,适用 于 存储 程序 中 频繁 访问 的 只 读 参数 ,常量 存储 器 
具有 缓存 机 制 

由 GPU 中 用 于 纹理 泻 染 的 图 形 专用 单元 发 展 而 来 , 它 是 一 种 只 读 存 储 器 ,最 高 可 以 存储 
= 维 数组 形式 的 数据 , 它 带 有 二 级 缓存 机 制 , 可 以 使 用 比 常量 存储 器 大 得 多 的 存储 空间 


局 部 存储 器 


共享 存储 器 


全 局 存储 器 


常量 存储 器 


纹理 存储 器 


2. GPU 音频 检索 加 速算 法 

(1) 检 索 算 法 可 移植 性 。CUDA 程序 优化 的 最 终 目 的 是 以 最 短 时 间 在 允许 的 误差 范 
围 内 完成 给 定 的 计算 任务 。“ 最 短 时 间 ? 是 指 整个 程序 的 运行 时 间 , 更 加 侧重 于 计算 的 知 
吐 量 ,而 不 是 单个 数据 的 延迟 。 在 开始 使 用 GPU 与 CPU 协同 计算 之 前 ,应 该 先 粗略 评估 
一 下 使 用 CUDA 是 能 够 达到 预想 效果 的 。 下 面 结合 CUDA 的 特性 ,从 精度 、 延 迟 和 计算 
量 三 个 方面 来 对 音频 检索 算法 进行 分 析 。 

从 精度 角度 来 看 ,目前 采用 CUDA 的 GPU 无 法 满足 高 精度 的 计算 需求 ,GPU 单 精 
度 计 算 性 能 远 远 超 过 双 精 度 计 算 性 能 ,整数 乘法 、 除 法 、 求 模 等 运算 的 指令 吞吐 量 也 较为 
有 限 , 即 GPU 最 适合 进行 单 精度 浮 点 运算 。 而 检索 算法 对 数据 的 精度 要 求 并 不 严格 , 采 
用 单 精 度 浮 点 数 完全 能 够 满足 精度 要 求 。 

从 延迟 角度 看 ,由 于 CUDA 不 能 单独 为 某 个 处 理 核心 分 配 任务 ,必须 采用 先 缓冲 一 
定 的 数据 再 交 给 GPU 进行 计算 的 工作 方式 。 这 种 方式 能 够 获得 很 高 的 数据 吞吐 量 , 然 而 
单个 数据 经 过 缓冲 、 传 输 到 GPU 计算 ,再 复制 回 内 存 的 延迟 就 比 直接 由 CPU 进行 串 行 处 
理 要 长 很 多 ,这 就 要 求 对 实时 性 应 用 的 要 求 不 能 很 高 。 如 果 必 须 在 数 十 微 秒 内 完成 对 一 
个 输入 的 处 理 , 采 用 GPU 可 能 会 影响 系统 的 整体 性 能 ,应 该 考虑 现场 可 编程 门 阵列 
(field-programmable gate array, FPGA ) 或 数字 信号 处 理 器 (digital signal processor， 
DSP) 来 实现 。 检 索 子 系统 对 延迟 的 要 求 在 毫秒 量 级 ,而 且 系统 可 以 通过 增加 缓冲 大 小 来 
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进一步 降低 对 延迟 的 要 求 。 因 此 ,从 理论 上 看 ,系统 能 够 容忍 CUDA 的 延迟 条 件 。 

从 计算 量 角度 来 看 ,如 果 计 算 量 太 小 ,那么 使 用 CUDA 是 不 划算 的 。 因 为 在 使 用 
CUDA 计算 时 ,会 因为 访 存 和 数据 传输 而 增加 时 间 开 销 。 虽 然 GPU 的 单 精 度 浮 点 处 理 
能 力 和 显存 带宽 都 远 远 超过 CPU ,但 由 于 GPU 使 用 PCIE 总 线 与 主机 连接 , 它 的 输入 和 
输出 的 吞吐 量 受到 了 LO 带宽 的 限制 。 当 计算 密集 度 很 低 时 ,执行 计算 的 时 间 远 远 比 
LO 花费 的 时 间 短 ,那么 整个 程序 的 "瓶颈 "就 会 出 现在 PCIE 带宽 上 。 此 时 ,无 论 如 何 提 
高 浮 点 处 理 能 力 和 显存 带宽 ,都 无 法 提高 系统 性 能 。 根 据 阿 姆 达尔 定律 可 知 , 如 果 可 以 并 
行 的 部 分 在 整个 应 用 中 所 占 的 比例 较 低 ,那么 GPU 对 程序 整体 性 能 的 提高 也 不 会 非常 明 
显 。 在 分 段 检 索 中 ,尤其 是 样 例 模板 较 多 时 ,每 输入 一 个 新 的 实时 音频 片段 ,都 要 到 各 个 
样 例 模板 中 进行 滑动 匹配 ,存在 大 量 的 距离 (相似 度 ) 计 算 , 计 算 量 大 正 是 系统 的 核心 “ 瓶 
颈 ”。 由 于 每 次 运算 都 是 完全 相同 的 操作 ,而且 两 次 运算 之 间 耦 合 度 很 低 , 原 本 串 行 的 滑 
动 匹配 中 的 距离 计算 完全 能 够 用 并 行 计算 的 方式 实现 。 


采用 CUDA 进行 运算 加 速 。 

(2) 音频 检索 算法 的 计算 特点 。 在 考虑 GPU 加 速 方法 时 ,应 根据 CPU 和 GPU 的 计 
算 特 点 ,充分 挖掘 两 者 的 计算 能 力 , 从 而 最 终 达 到 整个 系统 的 高 效 快速 运行 。 基 于 分 段 的 
实时 音频 检索 系统 主要 由 三 个 步骤 组 成 : 样 例 模板 加 载 ( 包 括 样 例 模板 读 入 、 特 征 提 取 
等 ) .音频 流 的 片段 及 特征 提取 和 片段 匹配 ,下 面 分 别 分 析 这 三 个 步骤 。 

在 音频 检索 系统 中 ,为 了 方便 用 户 辨 别 样 例 模板 ,通常 使 用 音频 格式 的 样 例 模板 以 便 
用 户 可 以 播放 ,这 就 需要 在 样 例 模板 加 载 时 计算 模板 特征 ,因此 存在 一 定 的 计算 开销 。 样 
例 模 板 加 载 时 间 的 长 短 对 实时 在 线 检索 匹配 的 效率 没有 直接 影响 ,但 是 , 当 样 例 模板 数量 
较 多 时 ,完成 一 次 样 例 模 板 加 载 需要 的 时 间 较 长 。 例 如 ,1 万 个 20s 的 样 例 模板 完成 一 次 
加 载 大 概 需要 20min。 随 着 系统 处 理 能 力 的 不 断 提 升 ,模板 库 的 规模 会 进一步 加 大 , 样 例 
模板 的 加 载 速度 也 会 变 得 越 来 越 重要 。 一 种 解决 的 方法 是 使 用 样 例 的 特征 文件 作为 模板 ， 
或 者 在 模板 文件 中 同时 保存 音频 数据 域 特征 数据 ; 另 一 种 方法 是 对 样 例 模 板 加 载 进行 提速 。 

实时 音频 流 的 分 段 及 特征 提取 是 一 个 不 间断 的 运算 过 程 ,主要 有 音频 数据 流 输入 就 
必须 进行 这 一 步骤 ,所 以 整体 运算 量 会 比较 大 。 其 中 ,音频 流 分 段 由 CPU 处 理 即 可 满足 
当前 系统 的 需求 ,没有 必要 采用 GPU 加 速 :特征 提取 是 一 个 相对 耗 时 的 过 程 , 而 且 在 样 例 
模板 库 建立 时 也 需要 进行 大 量 的 特征 提取 操作 。 因 此 ,可 以 对 特征 提取 进行 GPU 加 速 ， 
这 样 可 以 同时 达到 对 前 两 个 步骤 进行 加 速 的 效果 ,而 且 样 例 模板 越 多 ,音频 流 越 长 , 则 加 
速 的 效果 就 越 明显 。 
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片段 匹配 实际 上 分 为 片段 向 量 相似 度 计算 和 特征 向 量 序列 相似 度 计算 两 个 过 程 ,前 
者 是 输入 片段 向 量 在 样 例 模板 上 滑动 计算 相似 度 , 后 者 是 输入 片段 特征 向 量 序列 在 样 例 
模板 特定 位 置 上 计算 向 量 序列 相似 度 , 这 两 个 过 程 的 共同 点 都 是 需要 计算 向 量 相似 度 。 
如 果 采 用 余弦 距离 作为 相似 度量 , 则 两 个 过 程 的 计算 操作 相对 统一 ,而 且 都 可 以 并 行 化 实 
现 。 因 此 ,可 以 相应 编写 两 个 核 函 数 分 别 完成 这 两 部 分 计算 。 

可 以 直观 地 说 明 音 频 检索 算法 中 的 三 个 步骤 的 计算 量 大 小 。 例 如 ,加 载 10" 个 20s 的 样 
例 模 板 ,音频 流 输入 长 度 为 12h, 三 个 步骤 所 占 比 重 如 图 8-8 所 示 。 其 中 , 样 例 模板 加 载 , 音 
频 流 分 段 与 特征 提取 ,片段 匹配 分 别 占 检索 总 时 间 的 17%、14% 和 69%。 因 此 ,对 片段 匹配 
步骤 进行 加 速 能 够 获得 最 大 的 加 速效 果 , 应 重点 实现 该 步骤 的 GPU 并 行 化 计算 。 


分 段 特征 提取 


69% 


图 8-8 三 种 不 同 检索 步骤 的 时 间 比 重 


可 以 将 音频 样 例 特征 向 量 序列 称 为 Idxl 和 矩阵 或 Idx0, 将 两 个 片段 的 音频 样 例 特征 向 
量 序列 匹配 简称 为 Idx0 匹配 ;将 音频 样 例 特征 向 量 序列 按照 式 (8-20) 得 到 的 量化 值 序列 
称 为 一 维 索引 Idxl ,将 输入 片段 Idxl 值 构成 的 片段 向 量 在 样 例 Idx0 上 的 滑动 匹配 , 即 片 
段 向 量 滑动 匹配 ,简称 为 Idxl 匹配 。 


Range Range 
大 = D2) qd(XiXis); Range>0, Dao=1 (8-20) 
j=—Range j=—Range 


在 基于 分 段 的 实时 音频 检索 中 ,计算 量 比较 大 的 运算 操作 包括 : 快速 传 里 叶 变化 、 向 
量 归 一 化 .音频 样 例 特征 向 量 量 化 .Idx0 匹配 .Idxl 匹配 等 运算 。 这 样 样 例 模板 库 大 小 为 
10' , 样 例 模板 长 度 为 20s, 音 频 流 输入 长 度 为 12h 时 ,各 个 运算 操作 所 占 计 算 量 比例 见 
表 8-5。 从 表 中 可 以 清楚 看 出 ,检索 的 计算 量 主要 集中 在 Idx0 匹配 Idxl 匹配 两 个 部 分 ， 
它们 占 总 计算 量 的 81.9%, 是 检索 中 的 核心 计算 部 分 ,因此 应 该 是 GPU 提速 的 重点 。 
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表 8-5 不 同 运算 的 计算 量 比例 


运算 名 称 计算 量 比例 /% 运算 名 称 计算 量 比例 /% 
Idxl 匹配 70.6 向 量 归 一 化 1.6 
Idx0 匹配 1 MFCC 特征 向 量 量 化 本 
快速 传 里 叶 变 换 2.4 其 他 12.9 


3. 基于 GPU 加 速 的 音频 检索 算法 应 用 

上 面 从 三 个 不 同 的 角度 说 明了 将 音频 检索 算法 中 的 特征 提取 和 片段 匹配 作为 加 速 的 
对 象 。 由 于 片段 匹配 所 占 比 例 最 大 ,将 其 作为 音频 检索 算法 在 GPU 上 移植 的 重点 。 根 据 
并 行 化 的 程度 及 不 同 的 存储 空间 使 用 ,可 采取 以 下 两 种 实现 方法 。 

(1) 以 线程 为 粒度 的 方法 。 即 一 次 片段 匹配 由 一 个 线程 完成 ,这 种 处 理 方式 对 音频 
检索 算法 改动 较 小 ,实现 的 重点 是 如 何 有 效 管理 多 种 存储 器 、 如 何 提 高 处 理 数据 流 及 如 何 
处 理 分 配 计算 任务 等 。 

(2) 以 线程 块 为 粒度 的 方法 。 即 一 次 片段 匹配 由 一 个 线程 块 完成 。 一 个 CUDA 线 
程 仅 完成 一 次 片段 匹配 中 的 一 部 分 ,一 次 片段 匹配 由 一 个 线程 块 内 的 所 有 线程 合作 完成 。 
为 了 适应 CUDA 编程 的 特点 ,对 音频 检索 算法 进行 了 一 定 程度 的 改进 ,在 存储 器 管理 策 
略 和 任务 分 配方 式 上 区 别 于 以 线程 为 粒度 的 方法 。 

样 例 模板 的 数据 结构 : 在 音频 检索 系统 中 , 样 例 模板 中 除了 存放 Idx0 .Idxl 外 ,还 存 
放 着 其 他 不 需要 传输 到 GPU 上 的 数据 ,如 模板 名 称 、 类 型 等 辅助 描述 信息 。 为 了 节省 相 
对 小 的 显存 空间 , 仅 需 要 样 例 模板 的 Idx0 和 Idxl 传输 到 GPU 显存 中 。 因 此 ,GPU 样 例 
模板 的 主要 数据 结构 如 图 8-9 所 示 。 

音频 流 片段 组 的 数据 结构 : 为 了 减少 GPU 的 1/O 交互 次 数 , 提 高 系统 效率 ,应 该 一 
次 性 向 GPU 传输 尽 可 能 多 的 音频 流 片段 。 可 以 将 多 个 片段 组 的 主要 数据 结构 设计 为 如 
图 8-10 所 示 , 由 于 每 个 音频 流 片段 等 长 ,因此 根据 音频 片段 数量 即 可 从 音频 流 片 段 组 的 
Idx0、Idxl 中 截取 每 个 音频 流 片 段 的 数据 。 


GPU 样 例 模板 音频 流 片段 组 
{ {音频 流 片段 组 数量 ; 
样 例 模板 在 内 存 中 的 地 址 ; Idx0 ; 
Idx0 , Idx1 ; 
Idxl ; 音频 流 片段 在 内 存 中 的 地 址 ; 
} } 


8-9 GPU 样 例 模板 主要 数据 结构 图 8-10 音频 流 片 段 组 的 主要 数据 结构 


262 /大 学 生 信息 检索 素养 教程 


Idxl 匹配 结果 : Idxl 匹配 结果 使 用 的 主要 数据 | 结果 交 间 元 
结构 如 图 8-11 所 示 , 其 中 结果 头 单元 用 来 记录 该 线程 “| { yj gv 地 
所 处 理 的 音频 流 片段 在 内 存 中 的 地 址 、 该 片段 匹配 的 “| 言 频 流 片 段 匹配 的 样 例 个 数 ， 
样 例 模 板 个 数 以 及 第 一 个 结果 单元 的 指针 ;结果 单元 | ， 生 果 站 指针 
用 来 记录 与 结果 头 单元 中 音频 流 片段 匹配 的 样 例 模 | 结果 单元 
板 指针 以 及 在 样 例 模板 中 的 匹配 位 置 。 样 例 模板 在 内 存 中 的 地 址 ; 

将 一 组 音频 流 片段 传输 到 GPU 后 ,Idxl 匹配 结 | 训 二 流 片 颁 在 样 例 中 的 本 位 置 ， 
果 将 被 保存 在 显存 上 一 块 连续 的 存储 空间 中 。 由 于 |) 
一 个 CUDA 线程 负责 一 个 音频 流 片段 的 一 次 完整 匹 
配 ,因此 每 个 线程 都 必须 分 配 自己 的 结果 空间 ,并 根 
据 其 线程 号 在 结果 空间 中 分 配 相应 的 位 置 ,每 个 线程 
的 结果 空间 分 为 两 部 分 , 结果 头 单元 和 结果 单元 。 见 图 8-12。 


图 8-11 以 线程 为 粒度 时 Idxl 匹配 
结果 的 主要 数据 结 


图 8-12 以 线程 为 粒度 时 的 Idxl 匹配 结果 组 织 形式 


Idxl 匹配 节点 : GPU 将 Idxl 匹配 结果 传 回 内 存 以 后 ,遍历 整个 结果 空间 ,将 其 中 需 
要 进行 Idxl 匹配 的 片段 或 模板 信息 完整 地 保存 在 数据 结构 Idxl 匹配 节点 中 ,并 组 织 成 
链表 形式 的 队列 ,Idxl 匹配 节点 的 主要 数据 结构 如 图 8-13 所 示 。 


Idx1 匹 配 节点 

{ 

音频 流 片段 在 内 存 中 的 地 址 ; 

样 例 模板 在 内 存 中 的 地 址 ; 

音频 片段 在 样 例 模板 中 的 匹配 位 置 ; 
音频 片段 在 GPU 中 的 编号 ; 

样 例 模板 在 GPU 中 的 编号 ; 

下 一 节点 指针 ; 

} 


图 8-13 Idxl 匹配 重点 的 主要 数据 结构 
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系统 根据 Idxl 匹配 节点 链表 的 节点 信息 进行 Idxl 匹配 , 若 匹配 成 功 , 则 认为 数据 流 
片段 匹配 是 正确 的 。 根 据 分 段 检索 方法 的 原理 ,通过 上 下 文 信息 最 终 获得 检索 匹配 的 完 
整 结果 。 


8.5 语义 级 的 语音 文档 检索 


8.5.1 语音 文档 检索 的 预 处 理 

语音 文档 检索 (spoken document retrieval, SDR) 有 时 也 称 为 语音 数据 检索 (spoken 
data retrieval) 或 语音 检索 (speech retrieval) , 它 是 指 为 大 量 语音 数据 的 内 容 构 建 索 引 , 然 
后 根据 用 户 提 出 的 查询 请 求 , 从 索引 中 搜索 和 返回 与 用 户 请 求 相 关联 的 语音 文档 或 语音 
片段 的 处 理 过 程 。 

21 世纪 以 来 , 随 着 多 媒体 技术 的 迅猛 发 展 及 其 应 用 的 日 益 广泛 , 越 来 越 多 的 多 媒体 
信息 被 人 们 记录 并 保存 在 计算 机 中 。 为 了 更 高 效 地 访问 管理 和 利用 这 些 数据 ,人 们 人 迫切 
需要 针对 多 媒体 信息 的 检索 方法 。 语 音 往 往 是 多 媒体 信息 不 可 或 缺 的 重要 组 成 部 分 ,在 
多 媒体 信息 检索 任务 中 ,语音 文档 检索 扮演 着 非常 重要 的 角色 。 语 音 是 语言 的 载体 , 它 在 
声学 表示 中 富 含 可 供 检索 利用 的 语义 内 容 , 而 且 它 所 蕴含 的 情感 表示 和 韵律 变化 等 特征 
又 提供 了 高 于 语义 层次 更 加 丰富 的 信息 。 

目前 ,已 应 用 的 检索 系统 主要 基于 文档 元 数据 (metadata) 实 现 对 语音 与 多 媒体 数据 
的 检索 。 元 数据 一 般 是 通过 人 工 方 法 获取 的 音频 文件 内 容 的 文字 描述 。 这 种 方法 虽然 比 
较 准 确 , 但 问题 也 很 多 : 四 标注 多 媒体 数据 需要 大 量 的 人 工 ,而 网 络 上 却 每 天 都 涌现 出 海 
量规 模 的 新 的 多 媒体 数据 ; @ 由 于 标注 工作 量 繁重 ,往往 标注 内 容 仅 能 包含 标题 .关键 
字 \ 内 容 简 介 等 基本 内 容 , 因 此 可 利用 的 索引 资源 非常 有 限 ; @ 对 于 较 长 的 内 容 , 没 有 办 
法 提供 查询 词 的 时 间 定 位 和 导航 ,给 使 用 者 带 来 很 大 不 便 。 语 音 文 档 检 索 系 统 的 框架 结 
构 如 图 8-14 所 示 。 为 了 实现 快速 检索 ,一 般 将 检索 任务 分 成 “离线 索引 ”和 “在线 检 索 ” 两 
个 阶段 来 完成 。 

在 “离线 索引 ”阶段 又 包含 " 预 处 理 ” 和 “索引 建立 ”两 个 处 理 环节 。 语 音 是 不 利于 检索 
的 声学 信号 ,所 以 必须 通过 “ 预 处 理 ” 环 节 将 语音 的 声学 表示 级 信号 转化 成 更 容易 理解 和 
处 理 的 语义 级 信息 。 在 已 有 的 语音 文档 检索 研究 中 ,此 “ 预 处 理 ” 环 节 毫 无 例外 是 通过 自 
动 语音 识别 (automatic speech recognition,ASR) 技 术 来 实现 的 ,通过 ASR 技术 识别 语音 
内 容 , 将 其 转化 为 对 应 的 文本 表示 。 在 语音 文档 检索 系统 中 可 供 采用 的 ASR 技术 有 两 
种 : 连续 语音 识别 (continuous speech recognition, CSR) 和 关键 字 检 出 (keyword 
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语音 文档 自动 语音 识别 ASR 


图 8-14 语音 文档 检索 系统 的 结构 


spotting, KWS) 。 连 续 语音 识别 技术 识别 整个 语音 内 容 , 而 关键 词 检 出 技术 仅 识别 其 中 
特定 词汇 。 连 续 语音 识别 又 有 多 种 识别 结果 可 供 检索 系统 利用 。 

检索 系统 选择 的 ASR 技术 和 其 识别 结果 在 形式 上 不 同 ,语音 的 语义 表示 就 不 同 , 也 
就 意味 着 检索 系统 在 "索引 建立 ”和 "检索 处 理 " 等 环节 也 必须 采用 不 同 的 实现 方法 ,因而 
可 以 根据 目前 所 采用 的 ASR 技术 和 识别 结果 对 语音 文档 检索 做 大 致 的 分 类 。 

“索引 建立 "环节 在 预 处 理 后 得 到 的 语义 级 信息 中 ,提取 可 以 有 效 支持 检索 任务 的 统 
计 信 息 , 并 采用 易于 搜索 的 数据 结构 对 其 加 以 组 织 和 存储 ,从 而 形成 语音 资源 的 索引 库 。 
在 线 检索 时 ,检索 处 理 模 块根 据 查 询 请 求 在 索引 库 中 进行 快速 搜索 ,从 而 得 到 检索 结果 。 
“索引 建立 ”和 “检索 处 理 ” 模 板 的 设计 属于 信息 检索 领域 的 研究 范畴 ,但 又 与 传统 的 面向 
文本 的 信息 检索 技术 有 所 不 同 。 目 前 ,在 ASR 的 识别 结果 中 无 法 完全 避免 识别 错误 的 存 
在 ,有 些 条 件 下 识别 错误 还 可 能 相当 严重 ,此 外 其 处 理 对 象 也 可 能 是 网 格 这 种 结构 复杂 的 
多 候选 形式 ,这 些 问 题 使 得 语音 文档 检索 系统 中 的 “索引 建立 ”和 “检索 处 理 ” 等 技术 有 其 
独 有 的 特点 。 

语音 文档 检索 系统 的 检索 结果 可 以 有 两 种 呈现 方式 ,最 常见 的 方式 是 将 各 语音 文档 
按照 与 查询 请 求 的 相关 程度 进行 排序 ,然后 系统 返回 按 此 相关 度 排序 的 文档 集合 ,此 时 查 
询 请 求 可 以 是 一 个 词 , 也 可 以 是 多 个 词 ,甚至 可 以 是 另 一 段 语音 文档 。 还 有 一 种 呈现 方式 
则 更 关心 在 语音 文档 中 每 一 个 查询 词 都 被 检 出 ,并 且 时 间 定位 都 准确 ,这 种 方式 下 不 对 语 
音 文档 进行 排序 ,而 是 返回 检 出 结果 ,此 时 的 语音 文档 检索 系统 类 似 于 传统 的 关键 词 检 出 
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系统 。 对 这 两 种 检索 方式 ,前 者 更 多 应 用 于 面向 大 规模 语音 资源 库 的 检索 任务 ,如 互联 网 
的 多 媒体 搜索 引擎 ;后 者 通常 应 用 于 小 规模 资源 库 搜索 和 导航 ,如 个 人 电脑 中 语音 邮件 的 
管理 等 。 

英语 语音 文档 检索 研究 是 从 20 世纪 90 年 代 开 始 的 ,主要 研究 机 构 有 剑桥 大 学 、 麻 省 
理工 学 院 、 卡 内 基 梅 隆 大 学 、 微 软 公司 、 惠 普 公 司 等 。 英 美 等 政府 部 门 相继 设立 国家 项 目 
对 该 技术 进行 重点 支持 ,比较 知名 的 研究 项 目 有 THISL 和 NGSW 等 。 由 欧 共 体 研究 与 
技术 支持 的 THISL 项 目 (1997 一 2000 年 ), 主 要 针对 英 式 和 美式 广播 电视 新 闻 语 言 进行 
识别 和 检索 研究 。 美 国 自然 科学 基金 会 支持 的 NGSW 研究 计划 (2000 一 2005 年 ), 旨 在 
对 美国 国防 高 级 研究 计划 局 支持 的 负责 各 种 语音 处 理 技术 性 能 评测 的 重要 机 构 , 于 
1997 一 2000 年 引入 了 语音 文档 检索 专题 ,对 语音 文档 检索 系统 的 能 力 进行 公平 的 评测 。 
从 2006 年 起 ,NIST 开始 组 织 新 一 轮 的 针对 大 规模 数据 的 查询 词 检 索 (spoken term 
detection,STD) 评 测 , 其 应 用 目标 是 对 以 互联 网 为 例 的 海量 语音 数据 进行 基于 内 容 的 检 
索 . 过 滤 和 处 理 。NIST 组 织 的 测评 工作 对 全 世界 开放 , 极 大 地 促进 了 语音 文档 检索 的 发 
展 ,使 这 一 领域 得 到 广泛 关注 。 

针对 汉语 的 研究 则 起 步 较 晚 ,在 汉语 语音 文档 检索 研究 方面 ,中 国 台 湾 中 研 院 资讯 
所 、 中 国人 台湾 大 学 语音 实验 室 、 中 国 台 湾 师 范 大 学 资讯 工程 系 、 中 国 香港 中 文大 学 人 机 通 
信和 实验 室 、 微 软 亚洲 研究 院 等 学 术 机 构 开 展 了 很 多 研究 工作 。 早 期 的 研究 主要 集中 在 如 
何 针对 汉语 的 特点 来 实现 语音 文档 检索 任务 方面 ,近期 的 研究 工作 可 以 粗略 地 分 为 以 下 
几 个 方面 内 容 : 跨 语言 的 检索 技术 、 概 念 层次 的 检索 技术 、 面 向 Web 搜索 引擎 的 检索 技 
术 混合 索引 技术 等 。 哈 尔 滨 工 业 大 学 语音 处 理 研究 室 , 在 国家 自然 科学 基金 项 目 “ 基 于 
音节 网 格 的 汉语 语音 检索 技术 ”的 资助 下 ,开展 了 汉语 语音 检索 研究 工作 ,主要 研究 适合 
音节 网 格 特点 ,并 能 够 兼顾 检索 精度 .索引 尺寸 、 检 索 速 度 等 各 方面 要 求 的 检索 方法 。 

语音 文档 检索 有 着 非常 广泛 的 应 用 领域 。@ 对 Web 服务 提供 商 而 言 , 它 是 支撑 多 媒 
体 信息 搜 索引 擎 的 关键 技术 之 一 ,用 户 可 通过 该 搜索 从 互联 网 上 快速 获取 所 需要 的 多 媒 
体 资源 ; @ 通 过 该 技术 可 以 对 广播 电视 、 会 议 记 录 、 语 音 邮 件 、 讲 座 录 音 ` 有 声 读物 等 包含 
语言 信息 的 多 媒体 文档 ,实现 基于 内 容 的 检索 、 审 查 和 有 效 管理 ; @ 可 应 用 于 情报 搜集 、 
信息 内 容 安 全 等 诸多 领域 ,如 监视 非法 的 语音 通信 或 管控 网 络 中 非法 的 音频 流 数 据 等 ; 
图 可 实现 对 数字 图 书馆 中 包含 语言 信息 的 资料 进行 分 类 和 管理 ,并 实现 基于 话题 .谈话 内 
容 的 检索 ; @ 信 运营 商 可 以 通过 该 技术 提供 一 系列 具有 高 附加 值 的 服务 ,如 语言 邮件 管 
理 、 通 话 内 容 的 实时 记录 和 索引 等 ; @ 语 音 文档 检索 技术 的 实现 ,使 得 政府 机 构 和 各 种 专 
业 机 构 获 得 能 够 管理 .分 析 和 利用 自己 海量 会 议 记 录 的 有 效 手 段 ; @ 对 呼叫 中 心 (Ccall 
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center) 等 有 着 大 量 语音 记录 的 服务 机 构 而 言 ,语音 文档 检索 技术 有 着 重要 的 使 用 价值 ; 
@ 个 人 电脑 上 的 语音 文档 检索 等 。 


8.5.2 语音 文档 检索 的 索引 和 搜索 技术 

当前 主流 的 语音 识别 系统 都 采用 基于 统计 建 模 的 方法 。 设 O=(o ,op ,…',or) 表 示 语 
言 声学 观察 对 应 的 特征 向 量 序列 , 令 W= (wi ,ws，… ,wm) 表 示 对 于 声学 观察 的 一 个 可 能 
的 词 串 。 语 音 识别 的 目标 就 是 在 给 定 O 的 前 提 下 寻找 最 可 能 的 词 串 W’ 基于 贝 叶 斯 决策 
理论 ,W "为 最 大 化 后 验 概率 P(O|W) 的 词 串 , 即 有 


P(O| W)P(W) 
P(O) 


其 中 ,w 为 词 串 空间 ,由 于 语言 识别 系统 所 采用 的 词 表 是 确定 和 有 限 的 ,所 以 w 也 是 
确定 和 有 限 的 ;PCO|W) 为 在 词 串 W 时 产生 声学 观察 O 的 条 件 概 率 ,通常 基于 声学 模型 
计算 ;PC(W) 为 词 串 W 出 现 的 先 验 概率 ,通常 基于 语言 模型 计算 ;P(O) 为 产生 声学 观察 O 
的 概率 ,因此 在 识别 过 程 中 一 般 不 被 考虑 。 语 音 识 别 系统 最 终 应 当选 择 使 似 然 分 数 最 大 
的 W 作为 O 的 识别 结果 。 

图 8-15 给 出 了 标准 的 基于 统计 方法 的 语音 识别 系统 的 框架 结构 ,包括 前 端 处 理 、 声 
学 模型 构建 .语音 模型 构建 .识别 解码 等 过 程 。 原 始 语言 首先 通过 前 端 处 理 过 程 得 到 语言 
特征 ,在 搜索 解码 过 程 中 ,通过 语言 特征 与 声学 模型 的 匹配 来 计算 声学 分 数 ,通常 采用 帧 
同步 搜索 的 解码 算法 进行 解码 ,最 终 得 到 识别 结果 。 


语言 信号 声学 特征 
| PE 


前 端 处 理 


证 ”二 arg, maxP (W I arg, max (8-21) 
多 四 


声学 解码 


最 佳 词 串 


解码 过 程 


训练 过 程 声学 模型 训练 语音 模型 训练 


文本 语 料 
图 8-15 标准 语音 识别 系统 的 基本 框架 
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前 端 处 理 主要 是 对 语音 信号 进行 分 析 , 完 成 特征 提取 、 端 点 检测 .去 噪 降 噪 处 理 等 功 
能 。 特 征 提取 的 作用 是 使 用 更 低 维 的 向 量 表 示 原 始 语音 信号 。 当 前 语音 识别 系统 中 最 经 
常 采用 的 特征 有 两 种 : 线性 预测 倒 谱 系数 MFCC 和 感知 线性 预测 PLP 系数 ,同时 它们 比 
其 他 特征 应 用 也 要 广泛 。 

除 基本 特征 外 ,也 通常 采用 动态 特征 来 刻画 语音 信号 的 时 变 特征 , 即 原始 特征 的 一 阶 
和 二 阶 差 分 或 者 其 时 间 回 归 系 数 。 语 言 识别 器 所 采用 的 声学 特征 是 由 征 组 成 的 特征 向 
量 , 如 语音 识别 常用 的 39 维 MFCC 特征 , 它 包 括 12 维 MFCC 特征 、12 维 MFCC 的 一 阶 
差分 和 二 阶 差分 、 归 一 化 对 数 能 量 、 能 量 的 一 阶 差 分 和 二 阶 差分 。 去 噪 方面 ,最 常见 的 是 
对 特征 向 量 进行 基于 整 句 语 言 的 倒 谱 均值 归 一 化 和 能 量 归 一 化 等 。 

声学 模型 是 用 来 描述 特定 语言 单元 声学 特征 的 统计 分 布 。 声 学 建 模 基 元 数 的 选择 依 
赖 于 具体 的 语言 任务 。 通 常 来 说 ,大 的 建 模 单元 有 更 好 的 稳定 性 ,但 基 元 数目 比较 多 ,也 
不 灵活 ;小 的 建 模 单 元 基 元 数目 比较 少 ,较为 灵活 ,但 稳定 性 比较 差 。 对 于 大 词 表 的 语言 
识别 任务 而 言 , 多 采用 音素 作为 建 模 基 元 ,而 对 于 中 小 词 表 的 任务 来 说 ,通常 采用 音节 甚 
至 词 作 为 建 模 基 元 。 

(1) 隐 马 尔 可 夫 模 型 。 隐 马尔 可 夫 模 型 HMM 是 当前 语言 识别 中 最 成 功 的 声学 建 模 
技术 , 它 能 高 效 表 征 声学 特征 的 统计 特性 和 时 变 特性 。 隐 马尔 可 夫 过 程 是 一 个 双重 随机 
过 程 ,其 中 之 一 是 隐 马 尔 可 夫 链 , 它 描述 了 状态 ( 非 平稳 信号 的 短 时 平稳 段 ) 如 何 转 移 到 其 
他 状态 , 另 一 个 随机 过 程 描 述 了 状态 和 观察 值 之 间 的 统计 对 应 关系 。 由 于 站 在 观察 者 的 
角度 ,只 能 看 到 观察 值 不 能 看 到 状态 ,只 能 通过 一 个 随机 过 程 去 感知 状态 的 存在 及 其 特 
征 , 因 而 称 为 * 隐 ”马尔 可 夫 模 型 。HMM 可 定义 为 三 元 组 防 二 (x,A,B), 其 中 ,x 为 初始 
状态 概率 分 部 ,A 为 状态 转移 概率 分 部 ,B 为 观察 概率 分 布 。x 和 A 刻画 了 语音 信号 产生 
的 时 变 特征 ,B 则 刻画 了 声学 特征 的 统计 特性 。 在 语音 识别 中 ,通常 采用 无 跨越 自 左 向 右 
拓扑 结构 的 HMM。 每 个 状态 上 的 观察 概率 分 部 则 常 采用 高 斯 混合 分 部 (Gaussian 
mixture distribution,GMD) 形 式 。HMM 的 训练 是 语言 识别 中 的 一 个 关键 问题 ,通常 基 
于 最 大 似 然 估 计 Cmaximum likelihood estimation,MLE) 准则 ,在 大 规模 训练 语 料 上 估计 
HMM 模型 的 参数 。 这 一 参数 估计 的 过 程 可 以 采用 最 大 期 望 (expectation maximization ， 
EM) 方 法 高 效 地 实现 ,经 典 算法 包括 前 后 向 算法 (forward-backward algorithm,FBA) 和 
B-W(baum-welch) 算 法 等 。 此 外 ,为 了 提高 模型 区 分 能 力 , 通 常 也 采用 其 他 有 限 准 则 来 重 
新 训练 HMM 模型 参数 ,如 最 小 分 类 错误 准则 等 。 

(2) 声学 模型 的 训练 。 在 连续 语言 识别 中 ,通常 采用 音素 作为 建 模 基 元 。 在 语言 中 ， 
协同 发 音 (co-articulation pronunciation) 现 象 非常 普遍 。 当 以 音素 作为 建 模 单元 时 ,为 了 
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捕捉 这 种 上 下 文 不 同 导 致 的 发 音 变 化 ,通常 采用 两 音素 (bi-phone) 或 者 三 音素 (trrphone) 
来 更 精确 地 表示 不 同上 下 文 的 音素 。 这 种 扩展 急剧 增加 了 建 模 基 元 的 数目 ,导致 某 种 建 
模 基 元 的 训练 数据 不 足 。 解 决 音频 数据 稀 玻 问题 的 主要 方法 是 进行 参数 绑 定 ,使 某 些 模 
型 参数 可 以 共享 同样 的 训练 数据 。 混 合 绑 定 和 状态 绑 定 是 两 种 常用 的 绑 定 方法 。 通 常 采 
用 数据 驱动 或 者 决策 树 聚 类 的 方法 来 进行 参数 的 最 优 绑 定 。 基 于 状态 绑 定 上 下 文 三 音素 
的 声学 模型 的 训练 流程 图 如 图 8-16 所 示 。 可 分 为 四 个 步骤 。 


1 
音素 集合 | 模型 初始 化 ! 
全 部 词组 组 成 的 词 表 | | 
一 一 | 静音 和 短 停顿 模型 训练 | 
语音 的 音节 标注 | | 
1 
语音 特征 集合 | 对 齐 训练 数据 重新 训练 | 
1 
| | 
| | 踊 记 扩展 上 下 文 三 音素 模型 | ) 
1 1 
1 
| 训练 上 下 文 三 音素 模型 | 
| 
1 1 
基于 决策 的 状态 绑 定 | 
问题 集合 | 1 ! 
1 | 训练 状态 绑 定 的 下 下 文 三 音素 模型 | 
i 
1 
1 
1 
1 
1 
1 


图 8-16 ”状态 绑 定 上 下 文 三 音素 模型 的 训练 流程 


@ 单 音 素 模型 的 训练 。 首 先 采 用 全 局 均值 和 方差 作为 全 局 初始 模型 ,采用 B-W 算 
法 训练 上 下 文 无 关 单 音素 模型 的 HMM 模型 ;然后 确定 静音 模型 ,并 添加 短 停顿 模型 重 
新 训练 ;最 后 对 齐 训练 语 料 ,获得 语 料 的 最 佳 标注 ,并 重新 训练 模型 。 

@ 跨 词 上 下 文 三 音素 模型 的 状态 绑 定 。 把 上 下 文 无 关 单 音素 模型 跨 词 扩展 成 为 上 
下 文 三 音素 模型 ;然后 重新 训练 扩展 后 的 声学 模型 。 

@ 上 下 文 三 音素 模型 的 状态 绑 定 。 根 据 语 言 学 知识 ,建立 基于 规则 的 问题 集合 , 然 
后 以 数据 和 规则 项 结合 的 方式 建立 聚 类 决策 树 ; 把 属于 同一 个 叶子 节点 的 上 下 文 三 音素 
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模型 的 状态 进行 绑 定 ;状态 绑 定 关系 建立 之 后 ,再 次 重新 训练 模型 。 

@ 增加 上 下 文 三 音素 模型 状态 上 的 高 斯 混合 数 。 增 加 每 个 状态 下 高 斯 混合 数 ,并 重 
新 训练 增加 高 斯 混合 数 后 的 上 下 文 三 音素 模型 。 此 过 程 可 以 循环 进行 ,直到 状态 上 的 高 
斯 混合 数 达到 给 定数 目 。 

(3) 汉语 音素 的 建 模 方法 。 在 汉语 语音 识别 领域 ,最 普遍 的 音素 建 模 方法 是 音韵 
(initial 一 finals,IF) 建 模 。 汉 语 的 音节 由 声母 .韵母 组 成 ,一 般 声母 仅 包含 一 个 辅音 音 
而 韵母 则 由 一 个 原音 或 一 个 辅音 加 上 一 个 原音 组 合 而 成 。 汉 语 是 有 调 语言 ,声调 信息 是 
其 区 别 于 音域 的 一 大 特点 。 汉 语 中 的 每 一 个 音节 都 对 应 一 定 的 声调 , 共 分 五 种 : 阴平 、 阳 
平 . 上 声 、 去 声 和 轻声 ,声调 反映 了 说 话 人 基 频 的 变化 趋势 。 采 用 声韵 建 模 时 , 如 音节 
“biang” 可 拆 分 为 “b” 和 “iang” 两 个 音素 。 音 节 后 面 及 韵母 后 面 的 数字 表示 声调 ,其 中 1 一 
4 分 别 表示 阴平 .阳平 上 声 和 去 声 ,5 表示 轻声 。 这 样 的 音素 基 元 总 共有 187 个 。 

有 调 韵 母 分 段 模型 (segmental tonal model, STM) 是 另外 一 种 汉语 音素 建 模 方法 。 
其 建 模 方法 如 下 。 

Q@ 对 存在 的 韵母 音节 ,将 韵母 位 置 前 移 与 声母 捆绑 得 到 扩展 声母 集合 。 

@ 用 三 个 模型 /H/、/L/、/M/ 对 五 个 声调 进行 建 模 ,将 五 声 分 别 对 应 为 /HH/、 
/LH/、/LL/、/HL/ 和 /MM/。 

@ 当 韵 母 为 双 元 音 时 ,对 前 后 的 元 音 进行 分 隔 建 模 。 

表 8-6 所 示 为 STM 建 模 的 示例 ,每 一 个 音节 都 可 以 拆 分 成 三 个 音素 表示 。 

表 8-6 STM 音素 建 模 示例 


有 调 音节 音素 1 音素 2 音素 3 
/huangl/ /hu/ /aaH/ /ngH/ 
/han2/ /h/ /aL/ /nnH/ 
/tiao3/ /ti/ /aaL/ /oL/ 
/da4/ /d/ /aH/ /aL/ 
/luo5/ /1 /oM/ /uM/ 


(4) 关键 词 检 出 。 关 键 词 检 出 又 被 称 为 关键 词 识别 (keyword recognition,KWR), 是 
语音 识别 中 的 一 个 重要 领域 ,其 目的 旨 在 从 连续 语音 中 检测 并 确认 给 定 的 若干 个 特定 词 。 
关键 词 检 出 与 连续 语音 识别 的 主要 区 别 在 于 , 它 不 需要 识别 整个 语音 ,而 只 需要 识别 其 中 
感 兴趣 的 词汇 ,识别 时 可 以 忽略 语音 中 的 其 他 内 容 。 关 键 词 检 出 算法 结构 如 图 8-17 
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所 示 。 


离线 训练 
训练 


语音 数据 一 ~| 预 处 理 上 | 一 | 特征 提取 | 。 


识别 


在 线 识 别 


关键 词 搜索 一 =| 确认 广 


| 
1 
1 
1 
1 
| 
图 8-17 关键 词 检 出 系统 基本 框架 


8.5.3 语音 文档 检索 中 的 容错 方法 

语音 文档 检索 是 基于 语音 识别 技术 实现 的 ,其 检索 性 能 受 语 音 识 别 性 能 的 制约 。 在 
这 种 条 件 下 ,提高 语音 文档 检索 系统 容错 能 力 是 进一步 提高 检索 性 能 的 有 效 途 径 之 一 。 
所 谓语 音 文档 检索 中 的 容错 技术 ,是 指 能 够 在 一 定 识 别 错误 率 下 ,通过 提高 检索 系统 对 语 
音 识 别 结 果 的 容错 性 来 提高 整体 检索 性 能 。 

研究 容错 技术 的 根本 原因 在 于 语音 识别 结果 中 缺失 了 一 部 分 信息 ,或 者 说 没有 覆盖 
全 部 的 正确 内 容 。 目 前 在 语音 文档 检索 中 可 采用 的 容错 方法 有 以 下 三 种 。 

(1) 采用 模糊 匹配 的 方式 实现 容错 。 虽然 识别 结果 中 有 些 信息 不 存在 ,但 依据 经 验 
指导 它们 经 常会 被 识别 成 其 他 特定 的 内 容 , 那 么 当 匹 配 到 这 些 特定 内 容 时 ,也 可 以 认为 缺 
失 的 信息 以 一 定 的 可 能 性 存在 。 

(2) 采用 不 同 信息 源 相 融合 的 方式 实现 容错 。 一 种 语言 识别 器 会 缺失 这 样 的 信息 ， 
另 一 种 语言 识别 器 会 缺失 那样 的 信息 ,但 二 者 缺失 的 内 容 可 能 是 不 同 的 ,如 果 检 索 时 同时 
考虑 不 同 识别 器 的 识别 结果 ,那么 也 许 会 取得 更 好 的 检索 性 能 。 

(3) 对 识别 结果 进行 修正 和 扩充 。 现 有 的 语音 识别 技术 无 法 完全 排除 表面 识别 错误 
的 存在 ,但 也 许可 以 总 结 出 特定 识别 器 出 现 识 别 错误 的 规律 ,或 者 依据 外 部 只 是 能 够 对 那 
些 识别 错误 做 出 准确 的 判断 ,从 而 可 以 通过 纠 错 获 得 更 加 准确 的 识别 内 容 。 

1. 基于 模糊 匹配 策略 的 容错 方法 

在 基于 子 词 最 优 候选 的 语音 文档 检索 中 ,由 于 子 词 最 优 候选 中 识别 错误 比较 多 ,提出 
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了 许多 降低 匹配 精度 要 求 ,采用 模糊 匹配 的 容错 方法 。 采 用 模糊 匹配 的 策略 ,首先 要 统计 
识别 错误 发 生 的 先 验 知识 ,如 麻 省 理工 学 院 的 研究 者 采用 了 音素 识别 错误 混淆 矩阵 
(phonetic recognition error confusion matrix) ,矩阵 中 的 元 素 C(r,h) 表 示 音 素 7 被 识别 
成 音素 h 的 次 数 ,其 中 7 是 标注 的 音素 标识 ,h 是 识别 结果 中 的 音素 标识 。 在 进行 文档 相 
似 度 计算 时 , 原 有 的 方法 是 在 隐身 最 优 候选 中 搜索 匹配 表示 查询 词 的 音素 串 , 即 进行 子 串 
的 精确 匹配 , 若 音素 匹配 成 功 , 则 匹配 得 分 记 为 1, 和 否则 记 为 0, 并 累计 匹配 得 分 。 当 其 等 
于 音素 串 长 度 时 可 认为 查询 词 匹配 成 功 ,从 而 得 到 语音 文档 中 查询 词 的 发 生 频 次 。 采 用 
模糊 匹配 策略 后 ,音素 匹配 得 分 不 再 是 0/1 开关 量 , 而 是 一 个 介 于 0 和 1 之 间 的 实数 , 音 
素 i 和 音素 7 的 匹配 得 分 s(i,j) 可 计算 如 下 : 
CC 人 


sj) = ES (8-22) 


2. 基于 融合 策略 的 容错 方法 

信息 融合 (information fusion) 把 来 自 多 个 信息 源 的 数据 和 信息 加 以 校准 、 联 合 、 相 
关 , 合 并 成 统一 的 表示 形式 以 获得 更 加 精确 的 信息 。 多 源 信息 处 理 的 概念 并 不 陌生 , 它 是 
人 类 和 动物 的 一 项 基本 功能 ,也 是 人 类 智慧 活动 的 一 部 分 。 人 们 在 从 事 生 活 、 学 习 等 各 方 
面 活动 时 ,往往 在 综合 考虑 多 方面 因素 后 做 出 判断 。 信 息 融 合 是 一 个 形式 上 的 框架 ,在 这 
个 框架 下 通过 融合 的 方式 和 工具 将 来 自 不 同 源 的 数据 进行 联合 ,从 而 达到 获取 质量 更 好 
的 信息 的 目的 。 

近年 来 ,在 语音 相关 研究 领域 中 ,融合 技术 被 广泛 研究 并 采用 ,显著 改变 了 识别 系统 
的 性 能 和 和 鲁 棒 性 。 尤 其 是 在 说 话 人 识别 和 语种 识别 中 ,融合 技术 更 是 成 为 不 可 或 缺 的 技 
术 手 段 。 在 语音 文档 检索 领域 也 可 以 引入 融合 技术 ,通过 使 用 不 同 的 语音 识别 和 检索 技 
术 构 建 多 个 检索 系统 ,它们 在 特征 、 模 型 .检索 方法 等 方面 各 不 相同 ,具有 和 较 强 的 互补 性 ， 
因此 将 它们 融合 能 够 获得 更 好 的 检索 性 能 。 一 般 而 言 ,在 越 早 的 阶段 进行 信息 融合 ,往往 
包含 越 多 的 信息 ,但 是 其 需要 构造 的 融合 模型 和 处 理 算法 也 会 相对 复杂 。 考 虑 在 模型 层 
面 和 特征 层面 的 融合 比较 困难 , 且 结果 层面 的 融合 信息 缺失 较为 严重 ,语音 文档 检索 系统 
的 融合 主要 是 在 索引 和 分 数 两 个 层面 上 进行 的 。 

(1) 索引 层面 的 融合 。 子 词 网 格 的 结构 ,特别 适合 于 索引 层 的 融合 。 网 格 是 一 个 “ 删 
减 版 ”的 解码 网 络 , 它 是 不 同 的 特征 和 模型 条 件 下 解码 网 络 中 具有 较 高 似 然 分 路 径 的 集 
合 。 不 同 来 源 的 路 径 集合 往往 有 很 强 的 互补 性 , 比 单个 网 格 包含 更 多 的 正确 信息 。 基 于 
融合 网 格 的 语音 文档 检索 框架 如 图 8-18 所 示 。 

在 解码 过 程 中 , 似 然 分 数 较 小 的 路 径 被 剪 枝 , 只 有 似 然 分 数 较 大 的 部 分 路 径 被 保存 并 
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识别 器 1 


识别 器 2 


兽 癌 凋 邯 


识别 器 入 


图 8-18 网 格 融 合 的 系统 结构 示意 图 


写 入 网 格 。 对 网 格 进行 融合 , 即 对 这 些 路 径 集合 进行 融合 ,需要 考虑 两 个 方面 的 问题 : 
加 拓扑 结构 的 融合 ,如 何 将 多 个 网 格 统一 到 一 个 网 格 中 去 ; @ 分 数 的 修正 ,如 何 计算 融合 
后 网 格 上 匹配 项 的 后 验 概 率 。 

(2) 分 数 层面 的 融合 。 网 格 融合 提高 了 检索 的 整体 性 能 ,但 该 方法 也 有 一 定 的 局 限 
性 。 这 主要 是 由 于 该 方法 对 参与 融合 各 网 格 的 结构 有 一 定 的 限制 ,往往 要 求 待 融合 的 各 
网 格 采用 相似 的 方法 进行 构建 ,并 拥有 相同 的 检索 单元 和 后 验 概 率 估计 方法 。 对 在 网 络 
结构 上 不 同 构建 方法 的 检索 系统 ,不 容易 进行 直接 的 网 格 融合 。 

分 数 融 合 是 常用 的 一 种 融合 方法 。 它 将 多 个 语音 文档 检索 子 系统 输出 的 候选 检索 结 
果 及 相应 的 置信 度 分 数 进行 融合 。 分 数 融合 的 系统 框架 如 图 8-19 所 示 , 目 标语 音 分 别 进 
和 不同 的 语音 文档 检索 子 系统 ,N 个 子 系统 分 别 进行 检索 操作 ,得 到 检索 结果 一 一 置信 分 
数 。 最 后 对 所 有 子 系统 输出 的 分 数 进行 融合 ,得 到 最 终 的 融合 分 数 并 进行 判决 。 


二 一 一] 检索 结果 1 
子 系统 1 
检索 结果 2 y 
子 系统 2 疗 
语音 结 
“ 果 
丛 索 结果 NN 
子 系统 M| ibs 
图 8-19 分 数 融 合 系统 结构 示意 图 


3. 基于 扩充 网 络 的 容错 方法 
该 方法 是 对 基于 音节 网 格 的 汉语 语音 文档 检索 研究 任务 提出 的 ,用 于 对 网 格 的 内 容 
进行 修正 ,使 得 覆盖 更 多 的 正确 内 容 。 基 于 音节 网 格 的 汉语 语音 文档 检索 方法 的 检索 精 
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度 , 依 据 非常 接近 在 网 络 的 最 优 候选 上 得 到 的 检索 精度 。 可 以 认为 , 它 基 本 上 达到 了 利用 
网 格 中 最 有 候选 得 到 检索 结果 的 目的 。 一 方面 ,这 是 一 个 令 人 鼓舞 的 研究 成 果 , 也 充分 说 
明了 后 验 概 率 是 一 种 非常 有 效 的 置信 测度 手段 , 它 在 语音 识别 所 产生 的 网 格 结果 中 ,能 够 
起 到 区 分 正确 信息 和 错误 信息 的 效果 ;但 另 一 方面 ,这 也 意味 着 受 限于 网 格 内 容 , 很 难 再 
继续 提高 检索 精度 。 导 致 这 一 性 能 “瓶颈 ”问题 的 根本 原因 不 在 检索 方法 本 身 , 而 是 在 于 
检索 方法 所 给 予 的 音节 网 格 总 是 存在 固有 的 错误 率 下 界 , 即 音节 网 格 的 准确 性 制约 了 检 
索 方法 可 达到 的 最 优 检索 精度 。 一 般 用 网 格 错误 率 (lattice error rate, LER) 来 标识 这 个 
错误 下 界 的 位 置 。 实 验 分 析 表 明 , 当 增加 网 格 的 多 候选 规模 时 ,LER 下 界 的 存在 一 定 
程度 上 反映 了 语音 识别 存在 固有 界限 性 能 ,或 者 说 技术 缺陷 。 而 相应 的 检索 实验 表明 ， 
LER 的 下 降 总 能 带 来 检索 精度 的 提升 。 当 LER 达到 稳定 值 时 ,检索 精度 也 开始 在 一 个 
很 小 的 范围 内 波动 ,不 再 有 大 规模 的 改变 。 改 善 LER 下 界 是 提高 检索 精度 的 有 效 

算法 的 基本 思想 : 网 格 中 错误 下 界 的 存在 ,往往 意味 着 一 些 正确 而 有 用 的 音节 候选 
由 于 某 种 原因 不 能 被 包含 在 网 格 中 ,无 论 如 何 扩充 网 格 的 候选 规模 ,它们 都 会 被 识别 器 遗 
漏 掉 。 如 果 能 够 找到 这 些 被 遗漏 的 音节 ,以 及 它们 被 遗漏 的 位 置 ,就 能 够 将 它们 补充 到 网 
格 中 去 ,从 而 得 到 错误 率 下 界 被 改善 了 的 扩充 网 格 。 可 以 认为 ,被 遗漏 的 音节 与 网 格 的 数 
据 分 布 间 应 该 有 一 定 的 关联 性 ,存在 着 某 种 统计 规律 。 如 果 能 够 为 此 规律 建立 统计 模型 ， 
就 有 可 能 根据 网 格 的 内 容 估计 出 被 遗漏 的 音节 。 

4. 基于 词 片 语言 模型 的 容错 方法 

基于 词 片 语言 模型 的 容错 方法 ,通过 在 语音 识别 器 中 引入 新 的 子 词 基 元 ,以 达到 扩充 
网 格 规模 以 包含 更 多 正确 内 容 , 进 而 提高 检索 精度 的 目的 ,这 就 是 基于 音节 网 格 的 汉语 语 
音 文档 检索 容错 方法 。 

在 针对 英语 的 语音 文档 检索 中 ,研究 者 曾 提 出 一 种 被 称 为 * 词 片 (word fragment) ”的 
子 词 形 式 , 它 可 被 理解 为 经 常 重复 出 现 的 一 组 音素 组 合 。 在 检索 系统 中 利用 这 种 子 词 基 
元 能 够 有 效 改 善 检 索性 能 。 针 对 汉语 的 特点 ,减少 有 调 音节 合并 成 新 的 基 元 “ 词 片 ”的 方 
法 。 该 方法 基于 互信 息 最 大 准则 ,利用 迭代 算法 在 文本 语 料 中 自动 生成 若干 大 于 音节 、 小 
于 词 的 词 片 基 元 。 通 过 构造 基于 词 片 基 元 的 语言 模型 ,利用 音节 或 音节 之 间 相 互 搭 配 的 
语言 学 信息 ,从 而 使 语音 识别 结果 能 够 更 好 地 体现 词 级 的 语言 学 信息 ,达到 提高 语音 识别 
性 能 ,同时 降低 网 格 的 错误 率 下 界 的 目的 。 
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本 章 小 结 


需要 检索 的 音频 资源 主要 指 能 够 被 计算 机 处 理 的 数字 化 音频 (digital audio) , 它 将 在 
时 间 上 和 幅度 上 都 是 连续 的 模拟 声音 信号 经 过 采样 和 分 层 处 理 , 进 行 编码 后 得 到 离散 数 
字 表 示 的 数字 信和 号。 音频 内 容 从 整体 上 看 可 以 划分 为 三 个 等 级 : 最 底层 的 物理 样本 级 、 
中 间 层 的 声学 特征 级 和 最 高 层 的 语义 级 。 

音频 检索 处 理 方法 可 分 为 三 类 : 一 是 语音 检索 , 即 以 语音 为 中 心 的 检索 ,采用 语音 识 
别 等 处 理 技术 ,例如 电台 节目 ,电话 交谈 ,会 议 录音 等 ;二 是 音乐 检索 , 即 以 音乐 为 中 心 的 
检索 ,利用 音乐 的 音符 和 旋律 等 音乐 特性 来 检索 ,例如 检索 乐器 .声乐 作品 等 :三 是 音频 检 
索 , 即 以 波形 声音 为 对 象 的 检索 ,这 里 的 音频 可 以 是 汽车 发 动机 、 雨 声 、 鸟 叫 等 各 种 声音 ， 
也 可 以 是 语音 和 音乐 等 ,这 些 声音 都 统一 用 声学 特征 来 检索 。 

从 检索 技术 及 其 依据 的 基本 原理 出 发 ,音频 检索 仍然 分 为 基于 文本 的 音频 检索 技术 
和 基于 内 容 的 音频 检索 技术 两 类 。 基 于 内 容 的 音频 检索 (content-based audio retrieval) 
就 是 通过 从 音频 数据 中 提取 和 分 析 音 频 特 征 信 息 ,对 不 同音 频数 据 赋予 不 同 的 语义 ,使 具 
有 相应 语义 的 音频 在 听觉 上 保持 相似 。 本 章 也 主要 是 阐述 基于 内 容 的 音频 检索 技术 。 

音频 信息 检索 模型 ,就 是 在 对 音频 信息 进行 抽象 表达 的 基础 上 ,通过 构建 一 种 评测 机 
制 能 衡量 用 户 查询 请 求 与 待 检 音 频 信息 的 相似 度 , 即 提供 一 种 衡量 用 户 查 询 请 求 与 音频 
数据 相似 性 的 方法 。 通 常 可 采取 两 者 之 间 的 距离 或 相似 度 概率 来 体现 它们 之 间 的 相似 性 
程度 。 目 前 的 音频 信息 检索 技术 ,其 模型 很 大 程度 上 借鉴 了 文本 信息 检索 模型 的 思想 。 
典型 的 模型 包括 向 量 空间 模型 和 概率 模型 。 

音频 样 例 检索 既 可 以 应 用 于 检索 静态 音频 数据 库 , 也 可 以 应 用 于 检索 实时 音频 流 。 
相对 而 言 ,检索 实时 音频 流 难度 更 大 、 要 求 更 高 ,算法 需要 更 多 地 考虑 资源 开销 和 计算 速 
度 问 题 。 

基于 MPEG-1 压缩 域 模糊 分 类 的 音频 检索 方法 是 采用 一 种 基于 距离 的 模糊 分 类 法 ， 
用 隶属 度 刻画 音频 片段 与 类 别 之 间 的 联系 ,认为 每 个 音频 片段 与 各 个 类 别 中 心 都 有 一 个 
隶属 关系 ,对 不 同类 别 之 间 有 交叉 的 数据 进行 有 效 分 类 。 

从 高 维 空间 的 角度 来 看 ,检索 过 程 就 是 给 定 任意 一 个 查询 点 (向 量 ) ,在 数据 库 中 找到 
与 查询 接近 的 点 ,并 能 保证 以 较 高 的 概率 返回 与 查询 最 接近 的 点 。 如 果 数 据 库 的 规模 很 
大 或 数据 的 维 数 很 高 时 , 穷 举 法 的 实践 代价 往往 无 法 接受 。 高 维 数据 库 的 索引 存在 “ 维 数 
的 诅咒 ?问题 , 即 索引 的 复杂 度 随 维 数 的 增加 呈 指 数 增长 。 
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统一 计算 设备 框架 (compute unified device architecture,CUDA) 的 基本 思想 是 将 计 
算 任 务 映 射 为 大 量 的 可 并 行 执行 的 线程 ,程序 执行 时 硬件 会 动态 调度 这 些 线 程 的 运行 ,对 
并 行 度 高 的 数据 处 理 任务 能 有 效 发 挥 GPU 的 处 理 优势 。CUDA 程序 优化 的 最 终 目 的 是 
以 最 短 时 间 在 允许 的 误差 范围 内 完成 给 定 的 计算 任务 。 基 于 分 段 的 实时 音频 检索 系统 主 
要 由 三 个 步骤 组 成 : 样 例 模板 加 载 ( 包 括 样 例 模板 读 和 人 、 特 征 提取 等 ) .音频 流 的 片段 及 特 
征 提取 和 片段 匹配 。 

语音 文档 检索 (spoken document retrieval, SDR) 有 时 也 称 为 语音 数据 检索 (spoken 
data retrieval) 或 语音 检索 (speech retrieval) , 它 是 指 为 大 量 语音 数据 的 内 容 构 建 索 引 , 然 
后 根据 用 户 提 出 的 查询 请 求 , 从 索引 中 搜索 和 返回 与 用 户 请 求 相 关联 的 语音 文档 或 语音 
片段 落 的 处 理 过 程 。 语 音 文档 检索 技术 属于 基于 语义 的 音频 信息 检索 技术 的 研究 范畴 。 

声学 模型 是 用 来 描述 特定 语言 单元 声学 特征 的 统计 分 布 , 隐 马尔 可 夫 模型 HMM 是 
当前 语音 识别 中 最 成 功 的 声学 建 模 技术 , 它 能 高 效 表征 声学 特征 的 统计 特性 和 时 变 特 性 。 
隐 马 尔 可 夫 过 程 是 一 个 双重 随机 过 程 。 在 连续 语音 识别 中 ,通常 采用 音素 作为 建 模 基 元 。 

当 以 音素 作为 建 模 单 元 时 ,为 了 捕捉 这 种 上 下 文 不 同 导 致 的 发 音 变化 ,通常 采用 两 音 
素 (bi-phone) 或 者 三 音素 (tri-phone) 来 更 精确 地 表示 不 同上 下 文 的 音素 。 解 决 音频 数据 
稀 跑 问题 的 主要 方法 是 进行 参数 绑 定 ,使 某 些 模 型 参数 可 以 共享 同样 的 训练 数据 。 混 合 
绑 定 和 状态 绑 定 是 两 种 常用 的 绑 定 方法 。 通 常 采 用 数据 驱动 或 者 决策 树 聚 类 的 方法 来 进 
行 参数 的 最 优 绑 定 。 

语音 文档 检索 中 的 容错 技术 是 指 能 够 在 一 定 识别 错误 率 下 ,通过 提高 检索 系统 对 语 
音 识 别 结果 的 容错 性 来 提高 整体 检索 性 能 的 技术 。 目 前 在 语音 文档 检索 中 可 采用 的 容错 
方法 有 三 种 : @ 采 用 模糊 匹配 的 方式 实现 容错 ; @ 采 用 不 同 信息 源 相 融 合 的 方式 实现 容 
错 ; @ 对 识别 结果 进行 修正 和 扩充 。 


本 章 思考 与 练习 题 


. 简 述 数字 化 音频 的 含义 。 

. 音频 信息 有 哪些 基本 特征 ? 

. 简 述 音频 信息 的 内 容 层次 。 

. 音频 信息 检索 技术 可 以 分 为 哪 几 类 ? 

基于 文本 的 音频 检索 方法 有 哪些 突出 缺点 ? 
.“ 基 于 内 容 的 音频 检索 ”的 含义 ? 


中 上书 
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. 音频 信息 检索 模型 的 含义 ? 
. 向 量 空间 检索 模型 和 概率 检索 模型 的 基本 含义 ? 


9. 实时 音频 检索 的 主要 技术 难度 是 什么 ? 


. 简 述 基于 MPEG-1 压缩 域 模糊 分 类 的 流 媒体 音频 检索 方案 。 
.邻近 搜索 的 含义 ? 

. 说 明敏 感 哈 希 索引 方法 的 一 般 原 理 。 

. 在 & 词 邻近 搜索 中 有 哪 两 种 算法 ? 各 自 的 含义 是 什么 ? 

. 简 述 基于 树 与 链表 混合 索引 的 音频 检索 方法 。 

. 通用 图 形 处 理 器 的 含义 与 作用 是 什么 ? 

. 简 述 CUDA 的 运行 方式 。 

. 描述 基于 平面 扫描 算法 的 邻近 搜索 有 哪些 具体 步骤 。 

. 描述 基于 分 治 方法 的 & 词 邻近 搜索 有 哪些 步骤 。 

. 说 明 响 度 突出 分 量 的 选择 步骤 有 哪些 。 

. 统一 计算 设备 框架 (CUDA) 有 哪 六 种 存储 器 ,各 自 有 何 特点 ? 

. CUDA 程序 优化 的 最 终 目 的 是 什么 ? 

.基于 分 段 的 实时 音频 检索 系统 主要 由 哪 三 个 步骤 组 成 ? 

. 说 明 语音 数据 检索 (或 语音 文档 检索 ) 的 概念 含义 是 什么 ? 
.描述 语音 文档 检索 系统 的 结构 。 

. 语音 文档 检索 有 哪些 主要 的 应 用 领域 ? 

. 阐述 基于 统计 方法 的 语言 识别 系统 的 基本 框架 。 

. 简 述 隐 马 尔 可 夫 模 型 的 含义 。 

. 基于 状态 绑 定 上 下 文 三 音素 的 声学 模型 的 训练 流程 有 哪些 步骤 ? 
. 在 汉语 语音 识别 领域 ,最 普遍 的 音素 建 模 方法 是 什么 ?举例 说 明 其 含义 。 
. 语音 文档 检索 中 的 容错 技术 的 含义 与 作用 是 什么 ? 可 采用 哪些 容错 方法 ? 
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视频 信息 检索 可 以 广泛 应 用 于 工业 、 农 业 、 商 业 、 科 研 与 多 媒体 服务 业 等 领域 。 例 如 ， 
应 用 于 大 型 监视 系统 中 可 以 检测 和 搜索 特殊 类 型 的 视频 内 容 事 件 , 实 现 监控 系统 的 智能 
化 ;应 用 于 电影 电视 行业 ,可 以 作为 非 线 性 编辑 系统 的 一 个 组 成 模块 ,提供 对 大 量 的 视频 
数据 的 组 织 和 检索 ;应 用 于 交互 多 媒体 系统 、 数 字 图 书馆 或 视频 服务 业 中 ,可 以 为 用 户 提 
供 友 好 的 视频 浏览 和 视频 交互 检索 界面 ,使 用 户 更 快 地 找到 需要 的 视频 信息 。 由 于 视频 
数据 与 其 他 数据 在 形式 结构. 内涵 等 方面 都 不 同 ,与 图 像 相 比 ,视频 的 结构 更 为 复杂 , 数 
据 量 也 更 大 ,对 基于 内 容 的 视频 检索 的 要 求 也 就 更 高 。 


9.1 数字 视频 的 相关 基础 知识 


1. 数字 视频 的 基本 概念 

根据 人 眼 的 视觉 停留 特性 ,通常 当 夯 面 显示 速度 超过 每 秒 25 帧 时 ,人 眼 会 将 快速 变 
换 的 画面 视 为 连续 画面 ,视频 就 是 利用 这 样 的 原理 来 模拟 真实 动态 世界 的 。 

视频 不 像 图 像 那 样 "一 目 了 然 ”, 人 们 使 用 视频 的 目的 是 从 中 获取 信息 , 想 要 ”一 目 了 
然 " 地 了 解 一 段 视频 中 是 否 包含 他 们 感 兴趣 的 内 容 , 这 就 需要 将 视频 数据 进行 结构 化 处 
理 。 对 于 视频 数据 ,至 少 有 两 个 基本 的 层次 结构 : 整个 视频 序列 和 单个 的 视频 帧 。 但 对 
于 视频 数据 库 的 管理 和 检索 来 说 ,仅仅 基于 整个 视频 流 的 结构 ,就 不 能 深入 到 视频 内 容 ， 
也 无 法 实现 基于 内 容 的 分 析 和 检索 ; 另 一 方面 ,由 于 视频 庞大 的 数据 量 ,如 果 是 基于 视频 
帧 的 处 理 , 则 运算 量 是 相当 大 的 ,而 且 帧 作为 组 成 视频 的 最 小 单位 ,包含 的 信息 量 不 大 ,用 
户 也 很 少 对 视频 中 的 单 帧 感 兴趣 。 一 般 来 说 ,一 段 视频 由 一 些 描述 独立 故事 单元 的 场景 
构成 ,一 个 场景 由 一 些 语义 相关 的 镜头 组 成 ,而 每 个 镜头 是 由 一 些 连 续 的 帧 构成 , 它 可 由 
一 个 或 多 个 关键 帧 表示 ,其 结构 如 图 9-1 所 示 。 

因此 有 必要 构造 中 间 级 的 结构 层次 ,构造 便于 检索 的 视频 结构 。 本 章 中 主要 涉及 的 
数字 视频 基本 概念 有 以 下 四 个 。 

(1) 帧 (frame) 。 帧 是 视频 流 的 基本 组 成 单元 ,每 一 帧 就 是 一 幅 图 像 。 视 频 流 就 是 由 
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图 9-1 视频 分 层 结构 图 

连续 图 像 帧 构成 的 。 在 PAL 制式 的 视频 中 , 帧 速率 一 般 为 25 帧 / 秒 ;在 NTSC 制式 中 , 帧 
速率 一 般 为 30 帧 / 秒 。 

(2) 镜头 (shot) 。 镜 头 是 指 由 摄像 机 不 间断 拍摄 的 一 组 帧 序列 , 它 常 被 看 成 是 视频 的 
最 小 结构 单元 。 一 般 来 说 ,同一 个 镜头 中 的 图 像 帧 比较 相似 ,其 对 应 特征 基本 保持 不 变 。 
因此 ,通过 发 现 相 邻 帧 之 间 较 剧烈 的 特征 变化 ,可 以 判断 是 否 发 生 了 镜头 转换 。 

(3) 关键 帧 (key frame) 。 关 键 帧 有 时 也 称 为 代表 帧 ,用 以 描述 一 个 镜头 的 关键 图 像 
帧 , 它 可 以 用 来 代表 一 个 镜头 的 主要 内 容 。 关 键 帧 的 使 用 大 大 减少 了 视频 索引 的 数据 量 ， 
同时 也 为 视频 摘要 和 检索 提供 了 一 个 组 织 框架 。 

(4) 场景 (scene)。 场 景 是 由 语义 上 相关 、 时 间 上 相 邻 的 若干 镜头 组 成 ,它们 一 般 发 生 
在 相同 的 时 间 和 地 点 ,出 现 相同 的 人 物 或 事件 。 场 景 反映 了 视频 所 蕴含 的 较 高 层 语义 内 
容 ,如 学 校 运动 会 这 个 场景 可 以 由 运动 员 入 场 、 运 动员 比赛 和 观众 呐喊 等 多 个 镜头 组 成 ， 
形成 一 个 比较 完整 的 语义 表达 。 

2. 数字 视频 模型 

视频 数据 库 系统 既 包 含 了 视频 数据 本 身 的 内 容 , 也 包含 了 不 同 视频 数据 间 的 关联 数 
据 。 视 频数 据 库 系统 的 基础 是 视频 数据 模型 ,数据 模型 包括 数据 结构 和 操作 。 其 中 数据 
结构 既 要 研究 与 数据 本 身 内 容 相 关 的 对 象 ,也 要 研究 描述 不 同 视频 数据 间 关 系 的 对 象 。 
而 数据 操作 则 只 是 对 数据 的 各 种 加 工 利用 手段 ,如 对 数据 的 插入 、 删 除 、 查 询 等 。 数 据 模 
型 有 很 多 种 ,下 面 简单 介绍 两 种 模型 。 

(1) 实体 -关系 模型 。 实 体 -关系 模型 是 一 种 典型 的 数据 模型 , 它 包 含 以 下 几 种 基本 


目 国 上 
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@ 实体 (entity)。 实 体 是 客观 存在 的 , 既 可 以 是 真实 的 事物 也 可 以 是 抽象 概念 。 在 
视频 数据 库 中 ,视频 段 、 镜 头 、 视 频 流 以 及 对 视频 的 注释 等 实际 对 象 和 概念 都 是 实体 。 

@ 标识 符 (label) 。 用 来 标识 实体 实例 的 名 称 。 在 视频 数据 库 里 ,视频 节目 的 名 称 就 
是 一 种 标识 符 。 

@ 属性 (attribute) 。 属 性 指 实体 的 特征 或 特性 。 在 视频 数据 库 中 ,对 一 个 给 定 的 视 
频段 ,可 以 用 其 内 容 , 如 其 中 出 现 的 人 数 、 人 名 、 时 间 等 作为 属性 来 描述 。 

@ 关系 (relation)。 指 实体 间 的 关系 。 在 视频 数据 库 中 ,不 同 实体 间 可 能 有 完全 不 同 
的 关系 。 

(2) 语义 对 象 模型 。 语 义 对 象 模 型 也 是 一 种 典型 的 数据 模型 , 它 比 实体 -关系 模型 更 
接近 用 户 的 感觉 。 该 模型 包含 以 下 几 种 基本 元 素 。 

Q@ 语义 对 象 。 语 义 对 象 是 足以 描述 一 个 确切 本 题 属性 的 命名 集合 ,与 实体 -关系 模型 
中 的 实体 对 应 。 

@ 标识 符 。 用 来 表示 语义 对 象 的 名 称 , 这 种 标识 符 是 语义 对 象 的 潜在 名 字 。 

@ 属性 。 指 语义 对 象 的 特性 或 特征 ,一 般 一 个 属性 用 作 标 识 符 就 需要 有 值 。 在 视频 
数据 库 中 ,对 一 个 指定 的 视频 段 ,可 以 用 其 内 容 , 如 其 中 出 现 的 人 数 、 人 名 、 时 间 等 作为 属 

@ 属性 域 。 是 关于 属性 的 可 能 取 值 的 描述 , 域 的 特征 依赖 于 属性 的 类 型 。 

由 于 视频 有 其 独特 的 性 质 , 仅 用 传统 的 数据 模型 不 能 有 效 表达 ,为 此 要 建立 专用 的 视 
频数 据 模型 。 目 前 已 建立 了 多 种 视频 数据 模型 : 时 间 线 模型 ,时间 层 次 模型 、 代 数 模型 、 
视频 对 象 数 据 模 型 。 下 面 介绍 一 下 视频 对 象 数 据 模型 。 

在 面向 对 象 的 视频 信息 数据 库 系 统 OOVID (object-oriented video information 
database) 中 定义 了 一 种 视频 对 象 数据 模型 。 在 一 个 视频 节目 中 ,任何 一 部 分 都 可 成 为 一 
个 独立 的 视频 对 象 , 它 有 自己 的 属性 和 属性 值 。 一 个 视频 对 象 可 有 任意 的 属性 和 属性 值 ， 
但 它 所 独自 具有 的 属性 和 属性 值 可 以 表达 它 所 包含 的 所 有 视频 帧 序列 的 内 容 含 义 。 视 频 
对 象 是 对 有 意义 场景 的 描述 数据 ,包括 对 象 标号 、 时 间 间 隔 \ 一 组 属性 -属性 值 。 一 个 视频 
对 象 可 以 用 一 个 三 元 组 LO,T,V 表示, 其 中 O 是 视频 对 象 标 号 ,I 是 时 间 间 隔 集 合 的 一 个 
子 集合 ,V 是 一 个 nn 元 组 [a :wu ,az:v2，…,a,:v,j] ,其 中 每 个 a,(1 声 in) 是 属性 名 集合 A 
中 的 一 个 属性 名 ,vw 的 值 可 以 定义 为 

Vs Vl Cin), {vv v0.} 

每 个 元 素 zxE D( 基 本 元 素 值 集合 ) 都 是 一 个 值 ;每 个 间隔 i€E (时 间 间 隔 集 合 ) 都 是 

一 个 值 ;a;:v; 是 一 个 值 , 称 为 集合 值 ;每 个 视频 对 象 也 是 一 个 值 。 
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3. 数字 视频 的 特点 

数据 视频 内 容 丰 富 , 结 构 复 杂 , 不 同 于 传统 的 字符 型 文本 数据 。 它 主要 有 以 下 几 个 
特点 : 

(1) 视频 数据 量 大 。 视 频数 据 通常 是 利用 图 像 采 集 设 备 将 各 个 图 像 帧 自动 输入 计算 
机 而 最 终 形成 的 , 它 不 是 结构 化 数据 ,而 是 以 数字 图 像 或 数字 视频 的 非 格式 化 形式 表示 。 
从 数据 量 上 来 看 ,一 幅 分 辩 率 为 640X480 ,颜色 为 24bit/pixel 的 图 像 数据 量 大 约 为 1MB， 
如 每 秒 播放 30 帧 , 则 1 秒 钟 视频 的 数据 量 大 约 为 30MB, 即 使 经 过 压缩 ,一 部 普通 长 度 的 
影片 也 将 占用 数 百 兆 空间 ,这 显然 绝 非 结 构 化 记录 数据 所 能 比拟 的 。 

(2) 视频 数据 结构 复杂 。 文 本 数据 是 字符 数值 型 数据 ,不 含 空间 和 时 间 属 性 ,可 以 看 
作 是 一 维 数据 。 图 像 数 据 是 一 种 具有 空间 属性 的 数据 ,但 没有 时 间 属 性 ,可 看 做 是 二 维 数 
据 。 而 视频 数据 不 但 具有 空间 属性 还 具有 时 间 属 性 ,是 三 维 数据 。 空 间 维 是 每 一 个 视频 
帧 图 像 具有 的 空间 结构 ,时 间 维 是 指 视 频 是 一 系列 沿 时 间 轴 顺序 分 布 的 视频 帧 形成 的 流 
结构 。 因 此 视频 数据 具有 时 空 特 性 ,从 而 视频 数据 的 表达 和 模型 的 建立 变 得 困难 。 

(3) 视频 数据 具有 很 大 的 宛 余 性 。 宛 余 性 是 指 一 个 镜头 的 连续 视频 在 一 段 时 间 内 仅 
发 生 微小 的 变化 ,大 部 分 数据 是 元 余 的 ,这 也 是 视频 压缩 的 理论 基础 。 

(4) 视频 信息 的 丰富 内 容 带 来 解释 的 多 样 性 和 模糊 性 。 人 们 在 观看 一 段 视频 时 ,对 
视频 内 容 的 理解 往往 加 入 了 一 定 的 主观 因素 ,因此 不 同 的 人 可 能 会 有 不 同 的 理解 ,这 就 不 
像 字 符 型 数据 那样 只 有 一 个 客观 的 完全 确切 的 解释 。 视 频数 据 解释 的 模糊 性 ,使 得 用 户 
在 进行 查询 时 ,无 法 像 字符 型 数据 那样 用 指定 的 关键 字 精 确 查 询 一 个 特定 的 记录 ,在 视频 
数据 库 中 ,往往 只 能 用 相似 性 匹配 的 方法 进行 检索 。 


9.2 基于 内 容 的 视频 检索 系统 结构 


基于 内 容 的 视频 检索 (content based video retrieval,CBVR) 指 根据 视频 的 内 容 及 上 
下 文 关系 ,对 大 规模 视频 数据 库 中 的 视频 数据 进行 检索 。 主 要 特点 是 直接 从 视频 数据 中 
提取 信息 线索 , 它 是 一 种 近似 匹配 ,在 没 人 工 参 与 的 情况 下 自动 提取 并 描述 视频 的 特征 和 
内 容 。 

基于 内 容 的 视频 检索 系统 结构 如 图 9-2 所 示 。 先 将 视频 流通 过 镜头 边界 检测 分 割 为 
镜头 ,并 在 镜头 内 选取 关键 帧 ,再 提取 镜头 的 运动 特征 和 关键 帧 的 视觉 特征 ,作为 一 种 检 
索 机 制 存 人 视频 数据 库 , 最 后 根据 用 户 提交 的 查询 , 按 一 定 特征 进行 视频 检索 ,将 检索 结 
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果 按 相似 度 呈 现 给 用 户 , 用 户 可 以 优化 查询 结果 ,系统 会 依 用 户 意见 灵活 优化 检索 结果 。 
特征 的 提取 和 检索 算法 的 优 劣 决定 了 其 效率 和 性 能 。 


视频 流 视频 检索 /浏览 


镜头 边界 检测 i 


1 


镜头 特征 提取 — 运动 特征 


关键 帧 提取 


i 视 党 特征 
关键 由 集 台 | 一 一 《特征 提取 一 一 一 一 | 三 色 、 纹理， 形状 等 


图 9-2 基于 内 容 的 视频 检索 系统 结构 图 


9.3 视频 镜头 分 割 


镜头 是 视频 数据 的 基本 单元 ,所 以 基于 内 容 检索 的 视频 处 理 , 首 先 要 把 视频 自动 地 分 
制 为 镜头 ,以 作为 基本 的 索引 单元 ,这 个 过 程 就 称 为 镜头 边界 的 检测 ,也 叫 场景 转换 检测 
(scene change detection ,SCD) , 它 是 实现 基于 内 容 视频 检 索 的 第 一 步 。 

通常 的 边缘 检测 方法 是 先 通 过 边缘 检测 算 子 找到 图 像 中 可 能 的 边缘 点 ,再 把 这 些 点 
连接 起 来 形成 封闭 的 边界 。 图 像 边缘 提取 不 仅 可 以 剔除 不 相关 的 信息 ,保留 图 像 重 要 的 
结构 属性 ,而且 通过 边缘 提取 可 以 使 得 信息 处 理 量 大 大 降低 ,从 而 降低 整个 算法 的 运算 
量 , 并 且 可 以 使 其 在 抗 噪 性 能 上 大 大 提高 。 

基本 的 镜头 边界 检测 算法 有 两 类 : 一 类 是 基于 图 像 特 征 的 非 压 缩 域 边界 检测 , 另 一 
类 为 基于 编码 信息 的 压缩 域 边界 检测 。 

非 压 缩 域 的 镜头 分 割 方法 指 先 解压 视频 中 的 I.B、P 各 帧 ,然后 通过 计算 图 像 间 的 特 
征 差异 检测 镜头 边界 ,如 图 9-3 所 示 。 这 种 方法 可 以 得 到 比较 高 的 检测 精度 ,但 是 特征 的 
计算 量 比较 大 ,其 中 最 典型 最 基本 的 有 基于 像素 .直方 图 、 块 .边缘 等 方法 。 
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图 9-3 镜头 分 割 帧 差 


压缩 域 的 镜头 分 割 方法 指 通 过 解析 压缩 域 中 的 编码 信息 检测 镜头 边界 ,这 些 编码 信 
息 有 DCT 系数 、 帧 间 预 测 、 运 动 撩 量 和 宏 块 编码 等 。 由 于 只 需 少量 的 解码 即 可 获得 这 些 
信息 ,因此 该 方法 的 检测 效率 很 高 ,常用 于 实时 的 镜头 边界 检测 ,其 中 最 基本 的 有 基于 
DCT 系数 .基于 DC 系数 、 基 于 运动 矢量 和 宏 块 预测 信息 等 方法 。 


9.3.1 非 压缩 域 的 镜头 分 割 方法 

1. 基于 像素 的 镜头 分 割 方法 

由 于 最 直接 反映 视觉 内 容 的 元 素 就 是 每 个 像素 的 灰 度 或 亮度 值 ,因此 度量 相 邻 帧 之 
间 差 异 最 简单 的 方法 就 是 计算 第 & 帧 和 第 & 十 1 帧 中 所 有 像素 的 灰 度 或 亮度 的 差 值 绝对 
值 之 和 ,然后 通过 统计 该 总 差 值 占 总 像素 数 的 百分比 来 确定 是 否 发 生 了 镜头 改变 。 于 是 
第 & 和 A& 十 1 帧 的 帧 间 差 Z(&,k 十 1) 可 表示 为 


Xx 其 
1 
Zlk,k 十 1) 一 5 | TiCz,y) — Tn(zx,y) | (9-1) 


z=1 y=1 


其 中 : 和 XY、Ti(z,y) TaCzyy) 分 别 是 图 像 的 宽度 高度. 第 & 帧 中 Cz,y) 像 素 的 灰 
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度 值 ,第 & 十 1 帧 中 (z,y) 像 素 的 灰 度 值 。 这 种 方法 的 一 个 缺点 就 是 不 能 区 分 大 区 域内 的 
小 变化 和 小 区 域内 的 大 变化 ,这 通常 会 造成 镜头 的 无 效 检测 。 为 区 分 上 述 两 种 变化 ,对 此 
种 算法 的 一 种 改进 就 是 只 计算 灰 度 变化 达到 一 定 阔 值 工 的 像素 个 数 , 即 帧 间 差 Z(k,k 十 
1) 可 表示 为 


Zk = YY TDinm(sy) (9-2) 
BD Sr ft 
其 中 
Ls Eley = ts | TT 
Dirn(zx,y) = Mossy eit | (9-3) 
0, else 


式 (9-3) 中 ,1 表示 该 像素 发 生 了 变化 ,0 表示 没有 变化 ,T 为 国 值 。 即 计算 第 & 帧 和 
第 & 十 1 帧 中 所 有 像素 的 灰 度 或 亮度 的 差 值 ,如 果 差 值 大 于 一 个 给 定 的 值 了, 那么 就 认为 
该 像素 发 生 了 变化 ,然后 通过 统计 图 像 中 发 生变 化 的 像素 数 占 总 像素 数 的 百分比 来 确定 
是 否 发 生 了 镜头 改变 。 这 种 方法 检测 镜头 的 边界 简单 快捷 ,但 是 对 噪声 比较 敏感 ,容易 错 
判 含 运动 的 场景 。 

2. 基于 直方 图 的 镜头 分 割 方法 

该 方法 的 基本 思路 是 : 先 把 整个 颜色 空间 (如 R,G,B) 量 化 为 N 个 槽 ,然后 统计 每 个 
槽 内 含有 的 图 像 像 素数 ,并 进行 规 一 化 处 理 , 就 可 以 得 到 图 像 的 颜色 直方 图 ,之 后 两 幅 图 
像 的 差异 度 就 可 以 通过 计算 它们 的 直方 图 差 值 求 得 。 

同一 镜头 内 的 相 邻 帧 一 般 都 有 全 局 的 视觉 相同 的 元 素 , 也 就 是 同一 镜头 内 相 邻 的 帧 
具有 相似 的 颜色 空间 分 布 ; 反 之 ,不 同 镜头 的 相 邻 帧 之 间 的 颜色 空间 分 布 相 似 度 很 低 。 反 
映 在 直方 图 上 就 是 : 同一 镜头 内 相 邻 帧 之 间 的 直方 图 差异 较 小 ;不 同 镜头 中 帧 之 间 的 直 
方 图 差异 较 大 。 显 然 理论 上 还 是 会 存在 视觉 内 容 并 不 相似 ,直方 图 却 相差 较 小 的 情况 ,但 
是 在 实际 的 视频 序列 中 ,出 现 这 种 情况 的 概率 是 非常 小 的 。 相 对 来 说 ,基于 直方 图 差异 是 
比较 简单 也 比较 有 效 的 方法 ,被 广泛 采用 ,但 是 基于 直方 图 的 方法 并 没有 考虑 图 像 中 像素 
的 空间 信息 ,因此 对 于 较 缓 慢 的 物体 运动 并 不 敏感 ,能 减少 物体 运动 带 来 的 无 效 检测 。 

假设 Hi (让 是 第 帧 中 第 i 个 灰 度 级 直方 图 的 值 ,i 的 范围 为 [0, Nj], 其 中 NN 为 灰 度 
级 数 。 基 于 灰 度 直方 图 算法 中 ,第 A 帧 和 ^& 十 1 帧 的 帧 间 差 为 

ZL 二 Il) 一 >) | HeG) 一 HeaG | (9-4) 
当 Z(k,k 十 1) 大 于 一 个 给 定 的 值 工时 , 则 认为 两 帧 图 像 间 存在 比较 大 的 差异 。 
对 于 彩色 图 像 通常 会 采用 三 个 直方 图 来 表示 ,分 别 是 红色 、 绿 色 和 蓝 色 直方 图 。 但 在 
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帧 图 像 中 ,有 些 颜 色 分 量 所 占 比重 比较 大 ,在 计算 帧 间 差 时 此 颜色 分 量 应 给 予 较 大 的 权 
值 。 因 此 有 了 带 权 直 方 图 : 


A4 和 于 
1 5 5 


5 二 (十 5 十 0)7/3 

其 中 :rs 分 别 代表 图 像 中 红色 分 量 .绿色 分 量 以 及 蓝 色 分 量 的 亮度 值 。 

直方 图 的 方法 实际 上 是 一 种 基于 颜色 量 的 统计 方法 ,因此 统计 结果 中 不 再 含有 图 像 
的 运动 .边缘 ,形状 等 信息 ,因此 虽然 这 种 方法 对 运动 等 不 敏感 ,但 是 也 就 意味 着 许多 从 视 
觉 上 感觉 并 不 太 相 像 的 图 像 在 直方 图 中 却 可 能 表现 得 非常 相似 。 另 外 一 方面 ,虽然 直方 
图 维 数 越 高 越 能 反映 颜色 的 统计 信息 ,但 是 计算 相似 度 也 就 越 复杂 ,另外 若 需 要 把 这 些 颜 
色 直 方 图 信息 保存 下 来 ,也 就 越 花 费 存储 空间 ,如 92 维 的 直方 图 比 48 维 的 直方 图 需要 多 
花 三 倍 的 存储 空间 ,在 存储 和 读 取 海量 视频 视觉 特征 时 将 不 得 不 考虑 这 一 点 。 

3. 基于 块 的 镜头 分 割 方法 

基于 块 的 方法 是 对 直方 图 方法 的 一 种 改进 。 其 基本 思路 是 : 将 图 像 划分 为 尺 块 , 通 
过 计算 两 幅 图 像 中 对 应 块 的 特征 差 值 来 计算 它们 的 差异 。 因 此 基于 块 的 第 & 帧 与 第 k 十 
1 帧 的 差 值 可 用 下 式 求 得 : 


R 


Z(k,k 二 1) 一 Dwi xX Zi(k,k+1) (9-6) 
i=1 


式 中 wi 为 第 i 个 块 上 的 差 值 权重 因子 。 同 样 当 ZCA,& 十 1) 大 于 一 个 给 定 的 值 工 时， 
则 认为 两 帧 图 像 间 存在 比较 大 的 差异 。 与 根据 整 幅 图 像 的 特征 差 值 来 计算 的 直方 图 法 相 
比 ,基于 块 的 方法 有 许多 优点 : 图 像 间 比较 的 是 局 部 特征 ,有 利于 限制 噪声 以 及 运动 等 带 
来 的 影响 ,增强 了 算法 的 鲁 棒 性 ;权重 因子 rw; 可 调 ,可 以 通过 调节 各 个 块 的 权重 值 ,实现 
视频 图 像 特 定 区 域 的 特征 分 析 和 差 值 比较 。 这 种 算法 可 以 在 一 定 程度 上 改善 对 局 部 运动 
的 容忍 度 。 

4. 基于 边缘 改变 比例 的 镜头 分 割 方法 

基于 边缘 特征 方法 的 基本 思路 是 : 如 果 发 生 镜 头 变换 ,那么 前 后 帧 的 边缘 会 有 很 大 
变化 。 在 检测 当前 帧 中 的 边缘 是 否 在 后 一 帧 中 消失 时 ,只 需 判断 在 后 一 帧 对 应 位 置 的 附 
近 是 否 可 以 找到 与 该 边缘 相 匹配 的 边缘 。 在 当前 帧 中 的 每 个 边缘 经 过 如 上 检测 后 ,后 一 
帧 中 仍 未 得 到 匹配 的 所 有 边缘 即 被 认定 为 新 出 现 的 边缘 。 不 同 的 镜头 变换 对 应 不 同 的 边 
缘 描述 ,一 般 用 边缘 变化 率 (edge ch "ange ratio) 来 描述 边缘 变化 特性 。 边 缘 变 化 率 (edge 
change ratio,ECR) 定 义 如 下 : 
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而 区 RE (9-7) 

其 中 m ,04-1 分 别 为 第 & 帧 中 所 有 边缘 的 像素 数 、 第 k 一 1 帧 所 有 边缘 的 像素 数 。X2， 

Xi 分别 为 在 第 & 帧 中 进入 边缘 的 像素 数 .第 & 一 1 帧 从 图 像 中 消失 的 边缘 的 像素 数 。 部 

分 研究 中 使 用 Canny 算 子 进行 边缘 检测 ,为 了 使 边缘 特征 能 抵抗 物体 运动 的 干扰 ,通常 在 

帧 图 像 中 出 现 的 边缘 像素 ,如 果 在 后 续 相 邻 帧 图 像 中 一 定 范 围 内 出 现 , 则 不 认为 该 边缘 像 
素 为 进入 或 消失 的 边缘 像素 。 


9.3.2 压缩 域 中 镜头 分 割 方法 

1. 基于 DCT 系数 的 镜头 分 割 方法 

DCT 系数 是 由 8X8 的 图 像 块 直接 进行 离散 余弦 变换 得 到 ,所 以 从 像素 域 算法 到 压 
缩 域 算法 ,很 容易 就 会 想到 基于 DCT 系数 的 方法 。 该 方法 就 是 利用 图 像 块 对 应 的 64 个 
系数 来 实现 基于 压缩 域 的 镜头 边界 检测 的 ,如 下 式 所 示 : 


1 | eCfisk sm) — efjsksn) | 
64 会 { max(c(fisk,n),c(fj;,k,n)) 


式 中 ,D(fi,f;,k) 为 第 i 帧 和 第 j 帧 的 第 & 块 的 归 一 化 的 平均 绝对 差 值 ;c(fi,&,n) 为 
第 i 帧 第 块 的 第 个 系数 。 

假如 ,D(Cf;,f;,&) 的 值 大 于 给 定 的 阔 值 Ti, 则 判定 为 第 & 块 发 生 了 很 大 的 变化 ,统计 
发 生变 化 的 总 块 数 ,如 果 也 大 于 给 定 的 阔 值 T; ,判定 在 i 帧 和 j 帧 之 间 发 生 了 镜头 变化 。 

2. 基于 DC 系数 的 方法 

该 方法 的 思路 是 : 先 构 造 每 一 帧 的 直流 (DC) 系数, 即 获 取 直 流 图 像 巾 。 其 中 ,I 帧 的 
DC 系数 直接 通过 帧 内 解码 得 到 ,而 对 于 BP 帧 , 则 可 以 通过 I 帧 的 DC 系数 和 它们 之 间 
的 预测 信息 估计 出 来 ,然后 计算 这 些 DC 图 像 之 间 的 差异 度 ,从 而 检测 镜头 的 边界 。DC 
图 像 的 差 值 可 由 下 式 计 算 : 


Dfi,f;sk) 


{9-8) 


M 
DC | CC PID = fs | (9-9) 
i=1 


式 中 ,jz 表示 第 六 帧 的 DC 图 像 系数 ,M 为 图 像 内 的 总 块 数 ,CC1/ ,表示 图 像 /六 
中 的 第 i 个 块 的 DC 系数 。 

3. 基于 运动 矢量 和 宏 块 预测 信息 的 方法 

基于 MPEG 压缩 域 中 运动 矢量 和 宏 块 预测 信息 的 方法 是 另 一 种 重要 的 镜头 边界 检 
测 方法 。 该 方法 的 思路 是 : 在 一 个 镜头 内 ,相机 或 物体 的 运动 基本 趋 于 稳定 ,因此 MPEG 
(动态 图 像 专家 组 ,一 种 图 像 压 缩 标 准 ) 流 中 的 运动 矢量 也 保留 着 一 定 的 一 致 性 ,通过 统计 
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MPEG 压缩 域 中 的 这 些 运动 矢量 信息 (如 预测 时 产生 的 能 量 差 ) 和 预测 宏 块 信息 (比如 预 
测 方向 、 预 测 数量 ) 以 检测 镜头 变化 的 边界 。 由 于 P 帧 和 B 帧 的 编码 信息 本 身 就 代表 了 与 
预测 帧 之 间 的 差异 ,因此 只 需 统计 这 些 预 测 信息 即 可 ,以 MPEG 压缩 域 中 的 P 帧 为 例 , 它 
的 预测 帧 间 差 异 度 可 以 表示 为 


DEC fs) 
Dn(fusfsy = 0 (9-10) 
E(f，,f, ,让 表示 第 i 个 预测 宏 块 的 预测 能 量 差 ,该 值 可 以 通过 解码 运动 拓 量 求 得 , 当 两 
帧 图 像 运 动 矢量 差别 越 大 时 ,该 值 越 大 ,反之 越 小 ;NN 为 发 生 的 预测 宏 块 数 ,M 为 总 宏 块 数 。 


9.4 镜头 切换 


当 视 频 内 容 发 生变 化 时 ,会 出 现 镜头 的 切换 。 镜 头 切换 主要 有 切 变 和 渐变 两 种 方式 。 

切 变 是 指 一 个 镜头 与 另 一 个 镜头 之 间 没 有 过 渡 ,由 一 个 镜头 瞬间 直接 转换 到 另 一 个 
镜头 的 方法 , 即 一 个 镜头 猛然 切换 到 另 一 个 镜头 ,中 间 没 有 时 间 上 的 延迟 ,也 称 直接 转换 

渐变 是 指 一 个 镜头 到 另 一 个 镜头 渐渐 过 渡 的 过 程 ,没有 明显 的 镜头 跳跃 。 渐 变 包括 
淡 入 淡出 溶解、 渐变 等 。 

(1) 淡 入 是 指 画面 逐渐 加 强 的 方式 。 

(2) 淡出 是 指 画面 逐渐 消失 的 方式 。 

(3) 溶解 是 指 一 个 画面 逐渐 消失 的 同时 另 一 个 画面 逐渐 出 现 的 方式 , 即 前 一 帧 图 像 
里 面 的 图 片 慢 慢 衰 减 ,而 后 一 帧 图 片 缓慢 变 亮 , 直 到 后 一 帧 的 图 片 出 现 。 

(4) 渐变 是 指 图 像 从 画面 的 某 一 部 分 开始 逐渐 地 被 另 一 个 画面 取而代之 的 方式 , 即 
后 一 帧 图 像 的 像素 按照 一 种 固定 的 模式 替代 前 一 个 镜头 的 像素 ,如 一 行 从 右边 界 开 始 一 
次 取代 的 像素 点 的 模式 。 

镜头 切 变 检测 方法 的 基本 思想 是 通过 对 比 相 邻 图 像 帧 之 间 的 特征 是 否 发 生 了 较 大 变 
化 来 判断 镜头 的 边界 。 由 于 切 变 镜头 发 生 切 换 的 相 邻 两 个 帧 之 间 差 别 很 大 ,所 以 无 论 在 
像素 域 还 是 在 压缩 域 ,检测 突变 的 方法 都 比较 成 熟 ,检测 成 功率 也 很 高 。 主 要 有 基于 全 局 
特征 的 切 变 检 测 、 基 于 局 部 特征 的 切 变 检 测 等 。 基 于 全 局 特征 的 切 变 检测 将 整 幅 图 像 看 
做 一 个 单元 计算 亮度 ,不 管 是 场景 亮度 或 颜色 的 改变 ,还 是 目标 或 背景 的 运动 ,边缘 轮廓 
的 变化 等 都 会 造成 亮度 的 突变 。 基 于 局 部 特征 的 切 变 检测 对 图 像 的 不 同 部 分 分 别 对 待 ， 
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最 常用 的 方法 是 考虑 图 像 中 的 边缘 或 轮廓 信息 。 

镜头 渐变 的 检测 比 切 变 检测 复杂 很 多 ,至 今 仍 没 有 取得 和 切 变 检测 效果 一 样 的 成 果 ， 
方法 主要 有 阅 值 法 、 光 流 法 和 模型 法 等 。 阅 值 法 的 思路 是 两 个 镜头 之 间 的 切换 是 缓慢 进 
行 的 , 帧 间 差 虽然 有 所 增 大 ,但 没有 一 个 明显 的 峰值 ,而 是 在 一 定 的 阔 值 范围 之 内 。 光 流 
法 的 原理 是 镜头 渐变 切换 时 没有 光 流 ,而 镜头 运动 应 适合 某 种 特定 的 光 流 类 型 。 模 型 法 
是 利用 视频 编辑 模型 来 进行 镜头 边界 检测 。 视 频 的 编辑 模型 主要 有 简单 色彩 编辑 模型 、 
复合 色彩 编辑 模型 和 空间 编辑 。 


9.5 关键 帧 提取 及 语义 提取 


一 个 镜头 包含 大 量 信息 ,在 视频 结构 化 的 基础 上 ,依据 镜头 内 容 的 复杂 程度 选择 一 个 
或 多 个 关键 帧 代表 镜头 的 主要 内 容 , 因 此 关键 帧 (或 关键 帧 序列 ) 便 成 为 对 镜头 内 容 进 行 
表示 的 手段 。 关 键 帧 的 选取 一 方面 必须 能 够 反映 镜头 中 的 主要 事件 ,因而 描述 应 尽 可 能 
准确 完全 ; 另 一 方面 ,为 便于 管理 ,数据 量 应 尽量 小 , 且 计算 不 宜 太 复杂 。 


9.5.1 关键 帧 提取 的 基本 原理 和 准则 

由 于 在 视频 序列 中 相 邻 帧 一 般 具有 相似 性 和 连续 性 。 这 样 可 构造 出 关键 帧 提取 的 基 
本 原理 : 如 果 将 所 有 视频 帧 重 琶 起 来 (在 图 像 坐标 系 下 ) ,那么 一 个 镜头 中 所 有 视频 帧 的 
特征 矢量 在 其 特征 空间 中 形成 一 个 轨迹 。 轨 迹 上 的 关键 特征 值 所 对 应 的 帧 即 为 关键 帧 。 
据 此 ,关键 帧 提取 的 过 程 可 抽象 为 两 步 : 第 一 步 , 寻 找 图 像 中 某 特征 的 量化 参数 ;第 二 步 ， 
判断 该 特征 量化 的 参数 是 否 为 关键 的 特征 值 。 

当前 一 般 采用 保守 原则 来 选取 关键 帧 , 即 关 键 帧 的 选取 *“ 宁 错 勿 少 ”。 在 代表 特征 不 
具体 的 情况 下 ,以 去 掉 元 余 帧 为 原则 。 当 需要 提取 多 幅 关 键 帧 时 ,关键 帧 提取 主要 是 考虑 
它们 之 间 的 不 相关 性 。 


9.5.2 关键 帧 提取 的 方法 

关键 帧 提取 的 方法 主要 分 为 两 类 : 基于 全 图 像 序列 的 方法 和 基于 压缩 视频 的 方法 。 
目前 大 多 数 关键 帧 的 提取 研究 是 基于 全 图 像 视频 分 析 的 。 具 体 实 现 方法 的 区 别 主要 在 于 
检测 方法 的 应 用 、 特 征 的 选择 以 及 帧 图 像 子 块 的 划分 。 

1. 基于 镜头 边界 的 方法 

该 方法 将 镜头 中 的 第 一 帧 和 最 后 一 帧 (或 中 间 帧 ) 作为 关键 帧 。 该 方法 简单 易 行 , 适 
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于 内 容 活 动 性 小 或 内 容 保持 不 变 的 镜头 。 但 未 考虑 镜头 视觉 内 容 的 复杂 人 性 ,限制 了 镜头 
关键 帧 的 个 数 ,提取 的 关键 帧 代表 性 不 强 , 效 果 不 够 稳定 。 

2. 基于 内 容 分 析 的 方法 

该 方法 基于 每 一 帧 的 颜色 纹理 等 视觉 信息 的 改变 来 提取 关键 帧 。 比 较 经 典 的 方法 
是 帧 平均 法 和 直方 图 平均 法 。 帧 平均 法 是 在 镜头 中 计算 所 有 帧 在 某 个 位 置 上 像素 值 的 平 
均值 。 然 后 将 镜头 中 该 点 位 置 的 像素 值 最 接近 平均 值 的 帧 作为 关键 帧 。 直 方 图 平均 法 是 
将 镜头 中 所 有 帧 的 统计 直方 图 取 平均 ,然后 选取 与 该 平均 直方 图 最 接近 的 帧 作为 关键 帧 。 

这 两 种 方法 计算 简单 ,所 选取 的 帧 具有 平均 代表 意义 ,但 选取 固定 数目 的 关键 帧 ,无 
法 描述 有 多 个 物体 运动 的 镜头 。 于 是 ,依据 帧 间 内 容 的 显著 变化 来 选取 多 个 关键 帧 的 算 
法 被 提出 ,其 基本 思想 是 : 首先 把 镜头 的 第 一 帧 作为 关键 帧 ,然后 计算 前 一 个 关键 帧 与 剩 
余 帧 之 差 (用 特征 信息 之 间 的 距离 度量 ), 如 果 差 值 大 于 某 一 阔 值 , 则 再 选取 一 个 关键 帧 。 
这 种 方法 可 以 根据 镜头 内 容 的 变化 程度 选取 相应 数目 的 关键 帧 ,但 所 选取 的 帧 不 一 定 具 
有 代表 意义 ,而且 在 有 镜头 运动 时 ,容易 选取 过 多 的 关键 帧 。 

3. 基于 光 流 的 运动 分 析 法 

此 方法 是 根据 运动 信息 提取 关键 帧 。 代 表 算 法 是 Wolf 提出 的 运动 极 小 值 算法 。 
Wolf 通过 光 流 分 析 来 计算 镜头 中 的 运动 量 , 在 运动 量 取 局 部 最 小 值 处 选取 关键 帧 。 

首先 用 Horn-Schunck 法 计算 光 流 。 对 每 个 像素 光 流 分 量 的 模 求 和 ,作为 第 & 帧 的 运 
动量 MCA) , 即 


MCA) = >) >) | OCi,j,k) | 十 | O, Ci,j,k) | (9-11) 
» 了 


其 中 ,O.(i,j,k&) 和 0O,(i,j,k&) 分 别 是 帧 内 像素 (i, 丫 光 流 的 久 、Y 分 量 。 

然后 寻找 M(k) 的 局 部 最 小 值 。 从 k==0 开始 ,扫描 M(k) 一 k& 曲线 ,找到 两 个 局 部 最 
大 值 MCA ) 和 MCA: ) ,MCAs ) 的 值 与 MCAi ) 的 值 至 少 相 差 p% (由 经 验 决 定 ), 如 果 MCAs ) 一 
min (MCA) ) ,Ai <A< As, 则 把 As 选 为 关键 帧 。 然 后 把 A 作为 当前 的 ,继续 寻找 下 一 
相识 

该 法 可 以 根据 镜头 的 结构 选择 相应 数目 的 关键 帧 。 但 其 依赖 于 局 部 信息 ,和 鲁 棒 性 不 
强 ; 也 没有 足够 重视 由 累加 动态 带 来 的 内 容 变 化 ;计算 量 较 大 。 

4. 基于 聚 类 的 方法 

镜头 聚 类 是 研究 镜头 间 的 关系 , 即 如 何 把 内 容 相 近 的 镜头 组 合 起 来 ,需要 对 视频 进行 
更 高 层 的 抽象 ,将 内 容 上 有 关系 的 镜头 结合 起 来 ,以 描述 视频 节目 中 有 语义 意义 的 事件 或 
活动 。 通 过 镜头 聚 类 将 镜头 中 的 帧 序列 分 到 各 个 簇 后 ,再 选择 视频 关键 帧 。 
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基于 聚 类 的 方法 是 目前 关键 帧 提取 的 主流 技术 ,其 基本 思想 是 : 首先 确定 一 个 初始 
类 心 ,然后 根据 当前 帧 与 类 心 的 距离 来 判断 当前 帧 是 归 为 该 类 还 是 作为 新 的 类 心 。 将 镜 
头 中 帧 分 类 后 , 取 各 类 中 与 类 心 距离 最 近 的 帧 作为 关键 帧 。 

例如 , 设 某 个 镜头 S; 包含 个 图 像 帧 ,可 以 表示 为 : S;=={F;(1),F;(2),…,F;(i))， 
其 中 已 (1) 为 首 帧 ,Fi(Cz) 为 尾 帧 。 根 据 某 个 图 像 特征 (例如 颜色 直方 图 ) ,定义 两 帧 之 
间 的 相似 度 , 相 似 度 通常 取 为 距离 函数 ,并 预先 设置 一 个 相似 度 阔 值 , 以 控制 聚 类 的 

计算 当前 帧 忆 :7 ) 与 现存 某 个 聚 类 质心 间 的 距离 ,如 果 大 于 阔 值 了 , 则 该 帧 与 聚 类 之 
间距 离 较 大 ,不 能 加 入 该 聚 类 。 如 果 Fi()) 与 所 有 现存 聚 类 质心 间 的 距离 均 大 于 了 T, 则 以 
已 (GO7) 为 质心 形成 一 个 新 聚 类 。 和 否则 ,将 Fi(j) 加 入 到 与 之 相似 度 最 大 的 聚 类 中 ,使 该 帧 与 
这 个 聚 类 的 质心 之 间 的 距离 最 小 ,并 且 对 该 聚 类 质心 做 如 下 调整 : 


FE, 
E+ FO) (9-12) 


其 中 centrod、centrod' 和 F, 分 别 是 聚 类 原 有 质心 . 聚 类 更 新 后 质心 和 该 聚 类 中 的 
帧 数 。 

通过 上 面 的 方法 将 镜头 S; 所 包含 的 nn 个 图 像 帧 分 别 归 类 到 不 同 聚 类 后 ,就 可 从 每 个 
聚 类 中 抽取 离 聚 类 质心 最 近 的 帧 作为 这 个 聚 类 的 代表 帧 ,所 有 聚 类 的 代表 帧 就 构成 了 镜 
头 的 关键 帧 。 

在 众多 的 聚 类 算法 中 ,K 均值 聚 类 和 模糊 C 均值 聚 类 是 两 个 著名 的 聚 类 算法 。 开 
均值 聚 类 算法 的 分 类 是 清晰 的 ,每 个 样本 被 分 配 到 一 个 且 只 此 一 个 聚 类 中 ;模糊 C 均值 
聚 类 算法 的 分 类 是 模糊 的 ,每 个 样本 针对 每 个 聚 类 都 有 一 个 成 员 函 数 。 聚 类 方法 能 有 
效 地 表示 镜头 内 容 间 的 相关 性 ,但 不 能 有 效 地 保存 原 镜头 内 图 像 帧 的 时 间 顺 序 和 动态 
信息 。 

5. 基于 压缩 视频 的 方法 

上 述 方法 都 是 基于 全 图 像 序 列 的 , 即 在 提取 关键 帧 之 前 ,对 视频 进行 解压 ,还 原 成 由 
图 像 ,运算 量 大 。 基 于 压缩 域 的 方法 是 直接 从 MPEG 压缩 视频 流 上 提取 关键 帧 ,无须 对 
视频 流 解 压 或 只 需 部 分 解压 ,降低 了 计算 的 复杂 性 。 目 前 基于 压缩 域 的 方法 是 直接 利用 
压缩 视频 数据 中 的 某 些 特征 来 进行 分 析 和 处 理 , 较 典型 的 方法 有 以 下 两 类 。 

一 是 利用 MPEG 压缩 视频 流 中 工 帧 信息 及 甚 频 域 直 流 分 量 信息 进行 关键 帧 提取 。 
MPEG 视频 流 由 I 帧 、P 帧 和 B 帧 三 种 类 型 的 帧 构成 ,并 且 MPEG 视频 编码 要 求 约 每 
13 帧 就 有 一 个 I1 帧 ,由 于 每 个 镜头 内 必然 包含 1 帧 ,因此 可 以 从 视频 流 中 提取 I 帧 ,将 原 


centrod’ = centrod X 
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始 视频 流 等 价 为 由 工 帧 构成 的 视频 流 。 再 利用 前 面 分 析 的 方法 分 析 相 邻 工 帧 的 连续 性 和 
相似 性 ,进行 关键 帧 的 提取 。 

二 是 利用 MPEG 压缩 视频 流 中 已 有 的 离散 余弦 变换 DCT 的 DC 系数 和 运动 矢量 
MYV 来 提取 关键 帧 。 在 MPEG 视频 流 中 ,I 帧 采用 帧 内 编码 ,主要 可 利用 的 信息 是 离散 余 
蓄 变 换 DCT 的 DC 系数 ;P 帧 采用 前 向 预测 帧 间 编 码 , 主 要 可 利用 的 信息 是 运动 预测 用 
的 前 向 运动 矢量 及 运动 补偿 用 的 预测 残 差 的 DCT 系数 ;B 帧 采用 双向 预测 帧 间 编 码 , 运 
动向 量 有 前 向 \ 后 向 和 双向 运动 矢量 。 在 提取 关键 帧 之 前 ,首先 要 检测 视频 的 变换 ,在 确 
定 图 像 组 存在 镜头 变换 后 , 才 进 行 关键 帧 的 提取 。 

(1) MPEG 视频 流 中 ,P 帧 是 由 前 面 的 工 帧 或 P 帧 通过 前 向 运动 补偿 进行 编码 。 当 
镜头 变换 发 生 在 P 帧 时 , 当 该 P 帧 内 没有 进行 运动 补偿 的 宏 块 数 与 有 运动 补偿 的 宏 块 数 
的 比值 出 现 峰值 时 , 则 认为 该 P 帧 是 一 个 关键 帧 。 

(2) B 帧 是 由 其 前 后 的 参考 帧 通过 双向 运动 补偿 来 进行 编码 , 当 镜 头 变 换 发 生 在 B 
帧 时 , 当 该 B 帧 内 后 向 运动 矢量 的 数目 与 前 向 运动 矢量 的 数目 的 比值 出 现 峰值 时 , 则 认为 
该 B 帧 是 一 个 关键 帧 。 

(3) 若 发 生 了 镜头 变换 且 了 帧 和 B 帧 都 不 是 关键 帧 , 则 推断 镜头 变换 发 生 在 工 帧 , 即 
I 帧 为 关键 帧 。 渐 变 过 程 是 一 个 连续 的 过 程 , 相 邻 帧 间 变 化 小 ,没有 明显 的 峰值 ,渐变 中 的 
任意 一 帧 都 可 作为 关键 帧 。 


9.5.3 视频 语义 提取 

为 了 高 效 地 获取 视频 中 包含 的 语义 信息 ,常用 方法 是 基于 视频 字幕 的 方法 和 基于 视 
频 中 的 音频 信息 的 方法 。 基 于 视频 字幕 的 方法 是 将 与 视频 相依 附 的 字幕 中 获取 文本 信息 
来 获取 视频 语义 概念 。 视 频 字幕 可 以 分 为 两 类 : 场景 字幕 和 标注 字幕 。 场 景 字幕 是 场景 
的 一 部 分 ,属于 原始 字幕 ,是 在 录制 过 程 中 环境 和 物体 本 身 的 文字 。 尽 管 有 些 场景 字幕 也 
蕴含 了 语义 信息 ,但 由 于 场景 字幕 出 现 具有 很 强 的 偶然 性 并 且 不 同 的 场景 字幕 之 间 的 差 
异 较 大 ,难以 寻找 所 有 场景 字幕 的 共同 特征 进行 识别 ,因此 在 视频 语义 提取 中 暂时 不 考虑 
这 类 字幕 的 语义 信息 。 而 标注 字幕 是 在 视频 后 期 制作 过 程 中 合成 到 视频 流 中 的 ,是 为 解 
释 视频 内 容 而 添加 进去 的 。 因 此 ,一 般 认 为 标注 字幕 是 对 视频 流 中 发 生 的 情景 的 描述 。 
为 视频 流 提供 了 高 度 概括 的 语义 信息 。 综 合 音频 特征 与 可 视 信息 进行 语义 分 类 来 生成 视 
频 语 义 描述 信息 ,实现 视频 语义 提取 。 


第 9 章 视频 信息 检索 / 291 


9.6 视频 特征 提取 


较 常 用 的 特征 大 部 分 建立 在 镜头 级 上 ,视频 分 割 成 镜头 .关键 帧 被 抽取 后 ,就 要 对 各 
个 镜头 进行 特征 提取 ,得 到 一 个 尽 可 能 充分 反映 镜头 内 容 的 特征 空间 , 即 提取 镜头 的 颜 
色 、 纹 理 以 及 运动 甚至 高 级 语义 等 各 种 特征 ,形成 描述 镜头 的 特征 空间 。 这 个 特征 空间 将 
作为 视频 聚 类 和 检索 的 依据 。 

视频 数据 的 特征 又 分 为 静态 特征 和 动态 特征 。 静 态 特 征 的 提取 主要 针对 关键 帧 ,可 
以 采用 图 像 特征 提取 方法 ,如 提取 颜色 特征 、 纹 理 特征 .形状 和 边缘 特征 等 ,这 是 基于 内 容 
的 图 像 检 索 的 重要 内 容 , 在 第 7 章 已 经 明确 阐述 。 因 此 本 章 只 对 动态 特征 做 详细 描述 。 

传统 获取 视频 运动 特征 的 方法 是 运动 估计 (motion estimation) 。 运 动 估计 是 指 从 当 
前 帧 图 像 中 获取 运动 趋势 和 走向 的 过 程 ,是 数字 视频 防 拌 动 (又 称 为 稳 像 原理 ) ,视频 压缩 
编码 的 核心 步骤 。 

摄像 设备 与 被 拍摄 场景 之 间 的 高 速 相 对 运动 ,或 者 摄像 设备 的 随机 抖动 ,都 会 使 图 像 
发 生 模糊 。 对 连续 模糊 的 图 像 序列 进行 运动 估计 和 运动 补偿 就 是 电子 稳 像 系统 的 核心 。 
运动 估计 的 目的 是 估计 出 因为 摄像 平台 的 随机 抖动 而 带 来 的 帧 间 全 局 运动 矢量 和 目标 运 
动 矢 量 ,检测 出 的 目标 运动 矢量 将 是 目标 的 独立 运动 矢量 与 背景 的 全 局 运动 矢量 的 矢量 
之 和 。 利 用 计算 出 的 运动 矢量 ,根据 前 一 帧 对 当前 帧 进行 运动 补偿 ,以 获得 清晰 稳定 的 图 
像 序列 。 各 种 空间 域 和 变换 域 的 运动 估计 方法 ,都 已 经 用 于 电子 稳 像 中 的 运动 估计 。 

完整 的 电子 稳 像 系统 主要 是 由 图 像 预 处 理 .运动 估计 和 运动 补偿 三 部 分 组 成 ,运动 估 
计 又 分 为 局 部 运动 估计 和 全 局 运动 估计 。 首 先 , 由 摄像 机 采集 原始 图 像 输入 到 稳 像 系统 
中 ,对 输入 的 图 像 进行 预 处 理 (主要 是 平滑 去 噪 和 图 像 增强 等 处 理 ); 其 次 ,通过 对 图 像 当 
前 帧 与 上 一 帧 进行 分 析 , 得 到 对 应 的 局 部 运动 矢量 LMV(local motion vector) ,因为 图 像 
序列 会 包含 运动 主体 .背景 .噪声 .畸变 等 干扰 因素 ,需要 排除 这 些 干扰 因素 引起 的 不 符合 
实际 情况 的 局 部 运动 矢量 ,通过 余下 的 多 个 局 部 运动 矢量 估算 出 全 局 运动 矢量 GMV 
(global motion vector) ;最 后 通过 运动 平滑 .运动 滤波 等 得 到 运动 参数 ,根据 运动 参数 将 
图 像 按 相 反 的 方向 移动 ,使 得 原 图 的 抖动 得 以 抵消 ,从 而 实现 运动 补偿 处 理 , 输 出 稳定 清 
晰 的 视频 图 像 。 

图 像 中 的 物体 运动 可 以 用 平移 运动 v= (v,,v,) 和 旋转 运动 a 二 vw 来 表示 , 若 不 考虑 
摄影 机 的 焦距 变化 , 则 第 i 帧 相对 于 第 i 一 1 帧 的 全 局 运动 矢量 D 可 以 表示 为 D; 一 
{ds,i, dy,i» do.i}。 


292 /大 学 生 信 息 检索 素养 教程 


9.6.1 全 局 运动 矢量 的 计算 方法 

1. 均值 法 

均值 法 是 最 简单 的 一 种 全 局 运动 矢量 计算 方法 ,通过 对 图 像 中 的 若干 个 局 部 运动 矢 
量 进行 均值 计算 ,从 而 得 到 全 局 运动 矢量 ,如 下 式 所 示 : 


GMV = PLMV, (9-13) 
i=1 


其 中 LMV; 表示 区 域 i 的 局 部 运动 矢量 。 均 值 法 的 优点 是 计算 简单 .速度 快 , 当 图 像 
中 没有 运动 主体 的 时 候 效果 接近 最 优 解 ,但 是 其 中 每 个 LMV; 具有 相同 的 权重 值 ,在 图 像 
中 出 现 干扰 现象 的 时 候 无 法 剔除 这 些 干扰 ,尤其 是 图 像 中 出 现 快速 运动 的 小 目标 主体 时 ， 
全 局 运动 矢量 将 受到 很 大 的 影响 。 

2. 权重 法 

在 均值 法 中 所 有 局 部 运动 矢量 具有 相同 的 权重 ,这 与 稳 像 效果 的 目标 不 符 , 数 字 稳 像 
要 求 在 视野 范围 内 尽量 多 的 物体 保持 稳定 , 即 MPC 准则 。 因 此 根据 上 述 准则 ,提出 了 一 
种 对 LMYV 赋予 权重 值 的 方法 ,其 中 权重 是 从 该 LMYV 的 稳定 度 和 隔离 度 两 方面 来 衔 
量 的 。 

稳定 度 用 于 描述 LMYV 在 前 后 帧 之 间 的 关系 , 当 两 帧 之 间 的 LMV 具有 紧密 关联 时 ， 
对 其 赋予 较 高 的 权重 值 ,否则 赋予 一 个 较 低 的 权重 值 。 

隔离 度 用 于 描述 LMYV 与 所 有 LMYV 均值 之 间 的 关系 , 当 某 个 LMYV 值 与 均值 相差 较 
大 时 ,认为 其 受到 运动 主体 或 是 其 他 因素 的 影响 ,并 给 其 赋 一 个 较 低 的 权重 值 ,这 样 将 降 
低 该 LMV 对 GMYV 的 影响 。 

权重 法 的 实现 如 下 。 

定义 块 B; (i 二 1,…,M) 的 局 部 运动 矢量 为 LMV(i) 二 (x1,y1), 全 局 运动 矢量 为 
GMV= 二 (zx,y), 贝 隔离 度 I 可 由 下 式 表 示 : 


T=| zi—m | 十 | yi—m,|, i=1,…,M (9-14) 
其 中 ， 
2) 2 
ni 一 M 昌 my 一 M 


稳定 度 S;, 可 由 下 式 得 出 : 
Si 一 | Zi— za | 十 | y;— yaa | (9-15) 
其 中 (xou ,yad) 表 示 上 一 帧 的 全 局 运动 矢量 。 
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3. 运动 估计 数学 模型 

视频 图 像 序列 的 抖动 是 由 摄像 机 的 随机 抖动 造成 的 ,因此 需要 分 析 摄 像 机 系统 运动 
的 类 型 .摄像 机 运动 与 图 像 运动 的 关系 。 对 于 不 同 的 视频 图 像 序列 帧 间 的 运动 采用 不 同 
的 变换 模型 ,常用 的 三 种 模型 有 : 平移 模型 .相似 模型 和 反射 模型 。 

(1) 平移 模型 。 只 分 析 图 像 的 平移 运动 ,此 模型 可 表示 为 


2 这 dx 
网 后 鸯 ed ‘0-10 
式 中 ,(x',y ) 和 (x,y) 分 别 表示 图 像 序列 当前 帧 和 参考 帧 中 对 应 像素 点 的 坐标 值 ， 


(dx,dy) 为 当前 帧 相对 于 参考 帧 在 x 和 y 方向 上 的 位 移 量 。 
(2) 相似 模型 。 考 虑 图 像 的 旋转 和 变焦 两 种 运动 时 ,此 模型 可 表示 为 


x cos0 一 sin 0][z dz 
[j=:x[, Bd bd 网 CO 
式 中 ,(x',y ) 和 (zx,y) 分 别 表示 图 像 序列 当前 帧 和 参考 帧 中 对 应 像素 点 的 坐标 值 ， 
(dz,dy) 为 当前 帧 相对 于 参考 帧 在 zx 和 y 方向 上 的 位 移 量 ,s 和 0 分 别 表示 当前 帧 相对 于 
参考 帧 的 缩放 系数 和 旋转 角度 。 
(3) 反射 模型 。 考 虑 图 像 出 现 扭 转变 化 情景 时 ,上 述 两 种 模型 不 能 够 反映 变换 的 情 
况 , 此 时 模型 可 表示 为 


ku Ai] [六 dz 
:x be eh) 9-18) 
式 中 ku ,kiz ,ka ,kzz 分 别 为 旋转 参数 ,s 为 变焦 系数 ,(x ,y ) 和 (x,y) 分 别 表示 当前 帧 
和 参考 帧 中 对 应 像素 点 的 坐标 , (dx ,dy) 分 别 表示 当前 帧 相对 于 参考 帧 在 x 和 y 方向 上 
的 位 移 量 。 
如 果 要 用 数学 模型 更 加 精确 地 描述 摄像 机 的 运动 ,需要 更 多 的 模型 参数 ,相应 的 计算 
复杂 性 越 高 。 计 算 复杂 性 越 高 ,实时 性 越 差 ,应 综合 考虑 精确 度 与 实时 性 ,根据 不 同 的 情 
况 , 选 择 合适 的 数学 模型 实现 数字 稳 像 。 


9.6.2 视频 运动 估计 

视频 运动 估计 的 基本 思想 是 将 图 像 序列 的 每 一 帧 分 成 许多 互 不 重 琶 的 宏 块 ,并 认为 
宏 块 内 所 有 像素 的 位 移 量 都 相同 ,然后 对 每 个 宏 块 到 参考 帧 某 一 给 定 特定 搜索 范围 ,根据 
一 定 的 匹配 准则 找 出 与 当前 块 最 相似 的 块 , 即 匹配 块 ,匹配 块 与 当前 块 的 相对 位 移 即 为 运 
动 矢 量 。 视 频 压 缩 的 时 候 , 只 需 保 存 运动 矢 量 和 残 差 数据 就 可 以 完全 恢复 出 当前 块 。 本 
节 只 说 明 视 频 图 像 运动 矢量 估计 的 两 种 较 简 单 的 情况 : 平移 运动 估计 和 旋转 运动 估计 。 
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1. 平移 运动 估计 
平移 运动 是 相 邻 帧 间 特 定 的 像素 的 移动 ,可 通过 光 流 法 、 块 匹配 法 、 特 征 匹 配 法 等 其 
他 方法 得 到 。 
图 9-4 是 块 匹 配 法 的 平移 运动 估计 示意 图 。 其 中 蓝 色 虚 线 区 域 表示 搜索 范围 , 黑 框 
区 域 表示 分 割 的 块 图 像 , 红 色 框 区 域 表示 上 一 帧 中 黑 框 区 域 的 图 像 , 黑 框 与 红 框 的 中 心 位 
移 矢 量 即 为 局 部 运动 矢量 。 
黑 棋 蓝 色 虚线 区 域 


区 黑 框 红 框 


(a) 参考 帧 (b) 当前 帧 
图 9-4 视频 图 像 运动 估计 搜索 示意 图 


2. 旋转 运动 估计 
从 平移 运动 矢量 中 ,可 通过 运动 模型 得 到 旋转 矢量 。 当 连续 图 像 序列 中 的 点 (zy ) 
以 (zo, yo ) 为 圆心 旋转 时 ,只 讨论 纯粹 的 旋转 运动 , 则 我 们 表示 转动 之 后 点 的 坐标 


(zy ) 为 
WW ee et ed Wi 
其 中 s 为 缩放 系数 ,在 摄像 机 大 致 国定 .焦距 不 变 的 系统 中 ,可 以 将 s 看 做 1, 则 可 得 
alley, glale be 9-20) 


当 旋 转角 0 较 小 时 , 则 可 表示 为 
六 ,二 dz 
A -2 
对 于 上 式 有 N 个 匹配 的 点 对 ,这 样 就 获得 了 2N 个 线性 方程 组 成 的 三 个 未 知 数 0、 
Az 和 Ay 的 方程 组 ,以 矩阵 5 一 Ax 的 形式 重新 排列 ,可 得 
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il 一 st — Sy le 届 
yi — syjl 证 琉 直 和 1 0 
b= i; |; A= “ ; X= 四 =>x= (4I4) A'™h 
TiN — STjN 一 syN 1 0 Ay 
— syjN 二 striw 0 1 


(9-22) 

尺度 因子 S 可 以 通过 拟 合 相 似 模型 单独 计算 出 来 ,然后 代 和 人 上 式 估计 剩余 参数 。 对 

于 平移 和 旋转 变换 * 是 常量 ,反比 于 时 刻 i; 和 4 的 任意 两 帧 图 像 的 距离 。 因 此 ,可 以 通过 
计算 采集 于 &; 和 司 的 两 帧 图 像 中 的 匹配 块 集 来 估计 s。 首 先 获得 每 个 匹配 块 集 的 质心 : 


N 
一下 zp a (9-23) 


其 中 (zy ,yy) 为 匹配 块 集 Sr 的 质心 坐标 , (zx ,yx ) 为 匹配 块 集中 块 & 的 坐标 。 用 Xx 
表示 从 匹配 块 & 到 帧 了 的 质心 距离 , 故 帧 i 和 帧 j 间 的 尺度 变换 因子 可 由 下 式 得 出 : 


人 A Aj1 . A S Mj ia 
Ai Ajz Ajz Ajz Ajz Aiz 
=s =>s 一 
AiN AjN AjN AjN AjN Ain (9-24) 
N 
Sa AM 天 
=>;s 一 4 
了 °° Ax 
k=1 


平移 和 旋转 参数 在 估算 尺度 变换 因子 后 ,可 进行 计算 ,对 于 反射 变换 2N 个 方程 可 写 
成 如 下 形式 : 


ru Ta VW 0 0 0 Xa 
riz : 
Ar 加 ZiNw yw 1 0 0 0 | lzrwn 人 
r2l 0 0 0 Zi yi 1 yi 
y. 0 0 0 ZN yiN 晶 N 


由 上 式 我 们 可 以 求 出 旋转 和 平移 参数 。 
通过 平移 运动 估计 ,我 们 可 以 得 到 图 像 中 点 (x,y) 的 运动 矢量 , 设 一 zz 一 za， 
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vV 二 y2 一 J1) 点 (X,Y ) 是 (x ,y!) 经 过 旋转 之 后 的 坐标 。 假 设 在 纯 旋转 过 程 中 ,任意 点 的 
运动 方向 都 与 旋转 中 心 的 同心 圆 相 切 , 那 么 ,假设 有 一 组 点 , 则 点 的 运动 矢量 的 中 垂 线 均 
相交 于 旋转 中 心 。 

运动 矢量 直线 段 的 中 垂 线 可 以 表示 为 y 一 k(t 一 Xx1) 十 yi,k 为 直线 斜率 ， 
三 (yz 一 y1)/(zs 一 X1)。 理论 上 只 要 两 点 便 能 确定 旋转 中 心 ,但 是 为 了 保证 在 视频 图 像 中 
出 现 干扰 时 程序 的 鲁 棒 性 ,通常 使 用 多 组 数据 进行 互相 匹配 以 获得 最 佳 运动 参数 。 对 于 
NN 点 的 情况 ,有 NN 组 等 式 : 

ea a 

则 旋转 中 心 为 x 一 (474) 420。 找 到 旋转 中 心 之 后 ,旋转 角 0 可 由 下 列 公式 得 到 : 
1 (= jo! = = = (y=) 


0 《一 而 光一 二 (一 一》 C9=277 
若 考虑 图 像 缩放 系数 ,可 得 
31 一 y2 
Wr Ca — Es) 
$s X sin0 一 一 一 一 一 (9-28) 
yi ya 一 Ya) 
Xl Xz 十 
EA 
则 图 像 指定 像素 点 位 移 可 表示 为 
dx 过 cosg 一 sin0]Tz; 
| 上 上 sx ] J (9-29) 
dy yi sing coOSOJLyi 


9.6.3 运动 矢量 估计 的 常用 算法 

运动 矢量 估计 的 研究 总 是 围绕 着 解决 计算 复杂 度 和 检测 精度 这 对 矛盾 进行 。 运 动 矢 
量 估 计 的 算法 主要 有 灰 度 投影 法 、 特 征 匹配 法 、 光 流 法 、 块 匹配 法 等 ,应 该 根据 实际 需要 合 
理 选择 运动 估计 算法 。 

1. 块 匹 配 法 

1) 块 匹配 运动 估计 原理 

视频 图 像 序列 的 相 邻 帧 间 存 在 很 大 的 时 间 宛 余 , 对 视频 序列 进行 压缩 时 ,采用 各 种 运 
动 估计 算法 ,可 以 大 幅度 提高 视频 编码 的 效率 。 块 匹配 法 因 其 简单 有 效 ,在 视频 编码 中 得 
到 广泛 应 用 。 块 匹配 运动 估计 法 是 基于 块 内 各 像素 运动 一 致 性 的 假设 基础 上 的 。 

块 匹 配 法 的 原理 为 :将 图 像 的 当前 帧 划分 为 固定 大 小 CQMX N 像素 ) 的 图 像 子 块 , 一 般 
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是 16X16 或 者 8X8 像素 ,并 假定 位 于 同一 图 像 子 块 内 的 所 有 像素 具有 相同 的 位 移 , 然 后 
对 当前 帧 中 的 每 一 块 ,在 上 一 帧 的 一 定 范围 内 (搜索 窗口 ) ,根据 一 定 的 匹配 准则 找 出 最 优 
匹配 块 (预测 块 ) ,该 块 就 是 从 上 一 帧 最 优 匹配 块 位 置 处 平移 过 来 的 ,所 得 运动 位 移 即 为 当 
前 块 的 运动 矢量 。 设 可 能 的 最 大 位 移 矢 量 为 (dz,dy), 则 搜索 范围 为 0(M 十 2dz) X(N 十 
2dy) ,为 了 方便 算法 的 实现 , 子 块 的 M 和 NN 取 值 一 般 相 等 ,dz 和 dy 也 取 相 等 。 预 测 块 和 
当前 块 的 像素 差 值 组 成 残 差 块 ,预测 块 与 当前 块 之 间 通 过 匹配 准则 函数 得 到 的 值 称 为 块 
匹配 误差 。 

块 运动 模型 分 为 块 平移 模型 和 可 变形 块 模型 两 种 , 块 平移 模型 假定 每 个 块 只 做 二 维 
平移 运动 。 给 定 两 帧 视频 图 像 yy(z) 和 ye(z), 对 于 yr(z) 中 的 一 个 块 B, 可 由 yw(z) 中 一 
个 同样 大 小 的 块 重建 , 即 


(x) |zep = lr+d) (9-30) 

其 中 ,d 是 两 个 块 的 空间 距离 。 块 重建 的 过 程 称 为 运动 补偿 。 式 (9-30) 中 的 块 可 以 
是 重生 或 者 非 重 全 的 。 对 于 非 重 倒 抉 ,每 个 块 估计 一 个 运动 矢量 ,由 式 (9-30) 进 行 运动 补 
偿 ; 对 于 重 倒 块 , 重 全 部 分 像素 的 运动 矢量 可 以 由 两 个 块 的 平移 矢量 平均 得 到 ,也 可 选择 
其 中 匹配 程度 较 好 的 运动 矢量 。 

可 变形 块 运动 模型 能 够 实现 对 物体 的 旋转 、 缩 放 、 变 形 等 建 模 。 块 的 运动 参数 不 再 是 
简单 的 一 个 平移 参数 ,而 是 空间 变换 参数 ,常用 的 可 变形 块 运动 模型 有 投影 运动 、 仿 射 运 
动 、 双 线性 运动 等 。 使 用 可 变形 块 能 更 准确 地 找到 匹配 位 置 ,并 且 对 于 锐 体 和 旋转 物体 的 
匹配 具有 较 好 的 效果 ,但 是 使 用 可 变形 块 将 占用 大 量 系统 资源 ,并 且 在 实际 匹配 过 程 中 效 
果 提 升 并 不 明显 ,为 了 计算 和 分 割 方便 ,在 实时 稳 像 系统 中 通常 使 用 固定 形状 的 块 , 一 般 
为 正方 形 。 

2) 块 匹配 运动 估计 的 技术 指标 

块 匹配 运动 估计 的 效率 主要 体现 在 图 像 质 量 、 压 缩 码 率 、 搜 索 速 度 三 方面 。 运 动 估计 
越 准确 ,预测 补偿 的 图 像 质量 就 越 高 ,补偿 的 残 差 就 越 小 ,补偿 编码 所 需 位 数 越 少 ,比特 率 
越 小 ;运动 估计 速度 越 快 , 越 有 利于 实时 应 用 。 提 高 图 像 质量 ,加 快 估计 速度 ,减少 比特 率 
是 块 匹配 运动 估计 的 目标 。 块 运动 估计 可 以 从 以 下 四 个 方面 进行 : 块 形状 与 大 小 、 块 匹 
配 准则 、 初 始 搜 索 点 的 选择 、 算 法 的 评价 指标 。 

(1) 块 形状 与 大 小 。 块 匹配 方法 隐 含 着 如 下 假设 : 同一 块 内 像素 的 运动 是 一 致 的 。 
显然 该 假设 具有 一 定 的 片面 性 ,但 选择 合适 的 块 形状 与 大 小 可 在 一 定 程度 上 消除 这 种 片 
面 性 。 一 般 来 说 , 块 形状 选用 正方 形 是 比较 自然 的 选择 ,这 样 既 便 于 图 像 的 划分 ,又 有 利 
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于 块 匹 配 准则 函数 的 计算 。 但 这 并 不 一 定 是 最 佳 选择 ,有 的 算法 采用 了 其 他 形状 ,如 三 角 
形 等 。 块 大 小 的 选择 受 两 个 矛盾 的 约束 : 块 大 时 , 块 内 各 个 像素 做 相等 平移 运动 的 假设 
不 合理 ; 快 越 小 ,编码 一 帧 图 像 所 需要 的 运动 估计 次 数 越 多 ,因而 需要 存储 和 传输 的 运动 
矢量 数 也 越 多 , 则 编码 效率 降低 。 因 此 ,要 综合 考虑 多 种 因素 ,选择 合适 的 块 大 小 。 作 为 
折 中 ,通常 选择 16X16 的 宏 块 作为 单位 。 

(2) 块 匹配 准则 。 块 匹配 准则 是 判断 块 相 似 程度 的 依据 ,因此 匹配 准则 的 好 坏 直 接 
影响 了 运动 估计 的 精度 ; 另 一 方面 ,匹配 运算 复杂 度数 据 读 取 复 杂 度 在 很 大 程度 上 取决 
于 所 采用 的 块 匹 配 准则 。 因 此 ,提高 运动 估计 算法 的 速度 可 以 用 两 种 途径 : 一 种 是 减少 
搜索 匹配 的 点 数 , 男 外 一 种 是 降低 块 匹 配 准则 的 计算 复杂 度 。 运 动 估 计算 法 中 常用 的 匹 
配 准则 有 以 下 两 种 

@ 平均 绝对 误差 (mean absolute difference criterion, MAD) 

Mm 2 

MAD 准则 实现 简单 方便 ,所 以 使 用 最 多 ,还 可 以 将 MAD 简化 为 SAD(sum of 
absolute difference) , 即 绝 对 误差 求 和 ,可 以 去 掉 不 必要 的 运算 。SAD 定义 为 


MAD(d) = | s( 寺 ,8) 一 s( 元 十 dk 十 1) | (9-31) 


SAD(@) = BD | sh) 一 (元 十 可 ,人 十 1) | (9-32) 
(m mo) EB 
SAD(d) = MX N x MAD(4a) (9-33) 
@ 均 方 误差 (mean square error, MSE) 
MSE(4) = DBD) Csik) ms dk+ 1)] (9-34) 
N11 rb no)EB 


d= (di,ds)， 二 4 = (十 四 十 do) 

(3) 初始 搜索 点 的 选择 。 一 种 是 直接 选择 参考 帧 对 应 的 (0,0) 位 置 , 这 种 方法 简单 ， 
但 容易 陷入 局 部 最 优 。 如 果 采 用 的 算法 初始 步 长 太 大 ,而 原点 又 不 是 最 优点 ,有 可 能 使 快 
速 搜索 跳出 离 原点 周围 可 能 性 比较 大 的 区 域 而 去 搜索 远 距离 的 点 ,导致 搜索 方向 的 不 确 
定性 , 故 有 可 能 陷入 局 部 最 优 。 男 一 种 是 选择 预测 的 起 点 。 由 于 运动 物体 的 整体 相关 性 
和 视频 运动 的 连续 性 ,因此 视频 序列 图 像 的 运动 必然 具有 时 间 和 空间 上 的 相关 性 。 许 
多 算法 都 利用 这 种 相关 性 先 对 初始 搜索 点 进行 预测 ,以 预测 点 作为 搜索 起 点 。 大 量 的 
实验 证 明 ,预测 点 更 加 靠近 最 优 匹 配点 , 即 加 强 了 运动 矢量 中 心 偏 置 分 布 ,使 得 搜索 次 
数 减少 。 

(4) 算法 的 评价 指标 。 运 动 估计 算法 的 优 劣 ,主要 取决 于 匹配 效果 和 搜索 时 间 。 匹 
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配 效 果 可 以 通过 人 有 眼 进行 主观 评价 ,但 这 具有 和 较 大 的 随意 性 , 且 不 易 进 行 定量 的 比较 。 一 
般 选 择 平均 峰值 性 品 比 (PSNR) 或 者 平均 MSE 进行 评价 。 

Q@ 信 噪 比 : 

PSNR = 10logio(2552/MSE) (9-35) 

@ 搜索 时 间 : 由 于 搜索 时 间 受 运动 平台 及 其 他 因素 的 影响 , 目前 常见 的 还 是 比较 搜 
索 点 数 即 搜索 过 程 中 进行 匹配 的 次 数 。 对 于 块 匹配 运动 估计 ,计算 复杂 度 主 要 依赖 于 平 
均 搜 索 点 数 。 

2. 灰 度 投影 法 

视频 图 像 序 列 的 实质 是 灰 度 发 生 连 续 变化 的 一 组 图 像 , 灰 度 投影 法 就 是 利用 图 像 的 
灰 度 分 布 变化 特性 获得 图 像 的 全 局 运动 位 移 矢 量 , 这 与 块 匹配 法 利用 单 像 素 信息 先 获得 
小 块 的 局 部 运动 矢量 后 获得 全 局 运动 矢量 不 同 。 灰 度 投影 法 是 利用 图 像 序列 的 行列 各 自 
投影 曲线 做 互相 关 处 理 , 进 而 获得 图 像 序列 的 全 局 运动 矢量 。 因 此 和 块 匹 配 法 相 比 , 灰 度 
投影 法 计算 量 少 。 

除了 具有 以 上 优点 外 , 灰 度 投影 法 还 有 一 些 缺 点 : 四 当 视 频 图 像 序 列 的 灰 度 对 比 不 
明显 时 , 则 不 易 实现 投影 曲线 的 互相 关 运算 ,得 出 的 全 局 运动 矢量 精度 不 高 。 四 场景 中 物 
体 的 局 部 运动 对 投影 曲线 的 互相 关 运 算 会 影响 投影 法 的 精度 ,也 会 使 得 全 局 运动 矢量 精 
度 降 低 。@ 用 全 相关 搜索 相关 曲线 的 峰值 时 会 产生 较 多 的 时 间 浪 费 。 若 直接 使 用 投影 算 
法 对 整 幅 图 像 进行 运动 估计 ,会 得 出 不 准确 的 全 局 运动 矢量 ,从 而 影响 稳 像 系统 的 性 能 ， 
因此 灰 度 投影 法 一 般 要 进行 预 处 理 。 灰 度 投影 法 主要 包括 图 像 映射 ,投影 滤波 、 相 关 计 算 
三 个 步骤 。 

(1) 图 像 映 射 : 把 每 一 帧 输入 的 初始 二 维 图 像 映射 为 两 个 独立 的 一 维 波形 。 

(2) 投影 滤波 : 当 帧 间 运 动量 大 时 ,边缘 信息 在 每 一 帧 图 像 上 是 唯一 的 ,因此 边缘 信 
息 在 互相 关 计 算 时 会 对 互相 关 的 峰值 产生 不 利 影响 。 为 解决 此 问题 , 需 通 过 余弦 滤波 器 
进行 滤波 处 理 , 降 低 边 缘 信息 的 幅 值 , 保 留 中 间 区 域 的 幅 值 。 

(3) 相关 计算 : 将 得 到 的 投影 图 与 参考 图 像 的 投影 图 做 相关 计算 ,在 相关 曲线 中 的 唯 
一 峰值 即 为 运动 矢量 所 求 的 位 移 值 。 

3. 特征 匹配 法 

特征 匹配 的 基本 原理 是 :通过 在 参考 帧 中 选取 典型 特征 作为 标识 ,并 在 当前 帧 中 以 一 
定 的 匹配 准则 进行 搜索 ,以 寻找 对 应 的 特征 结构 ,从 而 获得 图 像 序列 的 全 局 运动 矢量 。 特 
征 匹 配 法 的 步 又 如 下 。 

(1) 从 参考 帧 中 提取 特征 量 。 通 常 特征 量 应 该 具有 这 些 特点 : 有 比较 高 的 定位 精 
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度 、 在 图 像 中 尽 可 能 分 布 均匀 、 有 比较 丰富 的 图 像 信息 、 与 周围 特征 比较 有 一 定 的 独 
特性 。 

(2) 进行 特征 匹配 。 按 照 一 定 的 匹配 准则 ,在 当前 帧 中 进行 特征 量 匹配 。 

(3) 剔除 伪 匹 配 特征 量 。 由 于 图 像 序列 中 存在 的 物体 移动 、 谈 挡 等 因素 ,会 出 现 找 不 
到 特征 量 的 情况 ,此 时 会 出 现 伪 匹 配 特征 量 , 为 了 防止 全 局 运动 矢量 的 降低 必须 剔除 这 些 
伪 特 征 量 。 

(4) 全 局 运动 矢量 的 确定 。 把 获得 的 局 部 运动 矢量 代入 对 应 的 数学 模型 得 到 全 局 运 
动 矢 量 。 

在 特征 匹配 过 程 中 ,应 该 选取 明显 的 局 部 特征 ,常用 的 特征 有 和 角 点 、 边 缘 、 直 线 等 。 边 
缘 特 征 匹配 是 常用 的 方法 。 边 缘 特 征 匹配 的 运动 估计 算法 主要 有 两 个 步骤 。 

(1) 图 像 的 边缘 检测 。 通 过 各 种 边缘 检测 算法 分 别提 取出 参考 帧 图 像 和 当前 帧 图 像 
的 边缘 。 

(2) 图 像 的 边缘 匹配 。 将 参考 帧 的 二 值 化 边缘 图 像 分 为 四 块 , 在 每 块 中 选取 固定 数 
量 的 像素 称 之 为 核 ,用 这 个 核 在 当前 帧 的 边缘 图 像 中 搜索 对 应 的 区 域 , 根 据 最 小 绝对 误差 
MAE 搜索 准则 来 确定 最 佳 的 匹配 块 。 对 各 个 子 块 得 出 的 局 部 运动 矢量 进行 分 析 , 采 用 均 
值 滤波 的 方法 得 出 全 局 运动 矢量 。 

4. 光 流 法 

观察 动态 物体 时 在 视网膜 上 产生 连续 的 光 强 度 变化 ,就 像 是 光 的 “流动 "。 光 流 是 空 
间 运 动物 体 在 观测 成 像 面 上 的 像素 运动 速率 分 布 ,反映 了 在 一 定时 间 间 隔 内 由 运动 所 造 
成 的 图 像 变化 。 光 流 中 既 包 括 了 被 观察 物体 的 动态 行为 信息 ,也 包括 了 有 关 的 结构 信息 。 
它 利 用 图 像 序列 的 像素 强度 数据 的 时 域 变化 和 相关 性 来 确定 各 自 像 素 的 位 置 “ 运 动 ”, 即 
反映 图 像 灰 度 在 时 间 上 的 变化 与 视频 中 物体 结构 及 其 运动 的 关系 。 通 常 光 流 由 相机 运 
动 .场景 目标 运动 或 者 两 者 的 共同 运动 产生 。 每 个 像素 都 有 一 个 运动 矢量 ,因此 可 以 较为 
准确 地 反映 相 邻 帧 间 的 运动 。 

光 流 的 计算 方法 大 致 可 分 为 三 类 : 基于 匹配 的 、 频 域 的 和 梯度 的 方法 。 

(1) 基于 匹配 的 光 流 法 包括 基于 特征 和 基于 区 域 两 种 。 基 于 特征 的 方法 是 通过 不 断 
地 对 目标 主要 特征 进行 定位 与 跟踪 ,此 方法 对 大 目标 的 运动 和 亮度 变化 具有 和 鲁 棒 性 ,但 是 
光 流 稀 琉 而 且 较 难 精确 匹配 。 基 于 区 域 的 方法 对 相似 区 域 进行 定位 ,通过 这 些 区 域 的 位 
移 计 算 光 流 ,但 此 方法 计算 的 光 流 仍然 比较 稀 朴 。 

(2) 基于 梯度 的 方法 是 利用 图 像 序列 中 像素 强度 的 时 域 变化 和 相关 性 对 图 像 的 运动 
场 进 行 估计 ,将 相似 的 运动 矢量 合并 成 运动 目标 。 根 据 运动 目标 随时 间 变 化 的 光 流 特 性 ， 
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利用 图 像 相 邻 帧 的 差分 进行 图 像 分 割 , 利 用 图 像 分 割 信息 可 以 得 到 基于 光 流 法 的 运动 目 
标 检测 。 

光 流 法 对 于 图 像 的 边缘 梯度 值 有 很 高 的 要 求 , 并 且 需 要 对 全 帧 图 像 进行 处 理 , 当 帧 率 
较 高 .图 像 尺寸 较 大 时 , 则 要 求 计算 机 具有 较 高 的 计算 速度 。 光 流 法 运动 估计 的 优点 是 无 
须知 道 当 前 场景 信息 就 可 以 用 于 检测 运动 目标 。 但 是 ,基于 光 流 的 方法 利用 了 灰 度 的 变 
化 信息 , 光 流 的 连续 性 在 很 大 程度 上 依赖 于 光照 条 件 和 物体 的 反射 特性 。 相 对 于 块 匹配 
法 , 光 流 法 可 以 更 为 准确 地 反映 对 象 的 运动 ,分 割 精度 高 ,但 是 计算 量 大 ,难以 满足 实时 性 
检测 。 


9.7 视频 聚 类 


视频 聚 类 是 研究 视频 流 中 镜头 之 间 的 关系 ,也 就 是 把 内 容 相近 的 镜头 重新 组 合 在 一 
ea eet es mee 提高 检索 的 效率 。 

聚 类 算法 的 基本 思想 是 使 用 分 裂 法 对 给 定 的 个 样本 、 元 素 或 记录 的 数据 集 ,使 用 分 
裂 法 构造 个 分 组 ,每 个 分 组 代表 一 en K 个 分 组 满足 如 下 条 件 。 

(1) 每 个 分 组 至 少 包含 一 个 样本 。 

(2) 每 个 数据 样本 属于 且 仅 属于 一 个 分 组 (该 条 件 对 某 些 模糊 聚 类 算法 可 以 放宽 ) 。 

对 于 给 定 的 A, 算 法 首先 给 出 一 个 初始 的 分 组 方法 ,以 后 通过 反复 迭代 的 方法 改变 分 
组 ,使 得 每 一 次 改进 之 后 的 分 组 方案 都 比 前 一 次 好 ,而 “好 ”的 标准 是 分 到 同一 分 组 的 样本 
越 接近 越 好 ,不 同 分 组 中 的 样本 越 远 越 好 。 经 典 的 聚 类 方法 主要 有 KM、FCM 及 KHM 
聚 类 算法 。 下 面 简单 介绍 KM 聚 类 算法 。 

KM 算法 的 基本 思想 是 将 个 数据 对 象 划 分 到 & 个 簇 ,使 获得 的 簇 满足 在 同一 簇 中 
的 对 象 相似 度 较 高 , 而 在 不 同 簇 中 的 对 象 相似 度 较 小 。 聚 类 相似 度 通过 利用 各 簇 中 对 象 
的 均值 获得 一 个 "中 心 对 象 ”也 称 质心 ) 进 行 计算 。 

KM 算法 的 工作 流程 : 首先 ,从 nn 个 数据 对 象 任意 选择 k 个 对 象 作为 初始 聚 类 中 心 ， 
对 于 剩 下 的 其 他 对 象 , 则 根据 它们 与 这 些 聚 类 中 心 的 相似 度 或 距离 ,分 别 将 它们 分 配给 与 
其 最 相似 的 ( 聚 类 中 心 所 代表 的 ) 聚 类 ;接着 ,计算 每 个 新 聚 类 的 聚 类 中 心 ( 该 聚 类 中 所 有 
对 象 的 均值 ) ;不 断 重复 这 一 过 程 直到 标准 测度 函数 开始 收敛 为 止 。 一 般 采 用 的 标准 测度 
函数 是 均 方 误差 和 函数 ,如 下 式 : 

SSE = >) >) |‖z 一 本 用 (9-36) 


i=15€¢ 
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其 中 , w 二 二 z; 代表 能 c 的 均值 ,nj 代表 簇 c; 的 样本 数 。K 个 徐 具 有 以 下 特点 : 


izeEc 
簇 本 身 尽 可 能 地 紧凑 , 簇 之 间 尽 可 能 地 分 开 。 

KM 算法 描述 如 下 。 

输入 : 簇 个 数 k, 以 及 包含 nn 个 数据 对 象 的 数据 集 。 

输出 : 满足 均 方差 和 最 小 标准 的 & 个 簇 。 

(1) 从 nn 个 数据 对 象 任意 选择 & 个 对 象 作 为 初始 聚 类 中 心 。 

(2) 循环 (3) 到 (4), 直 到 每 个 簇 不 再 发 生变 化 为 止 。 

(3) 根据 每 个 簇 对 象 的 均值 (中 心 对 象 ) ,利用 下 面 欧 几 里 德 距离 公式 ,计算 每 个 对 象 
与 这 些 中 心 对 象 的 距离 ,并 根据 最 小 距离 重新 对 相应 对 象 进 行 划 分 。 

(4) 重新 计算 每 个 簇 的 均值 (中 心 对 象 ) 。 

欧 几 里 德 距 离 (Euclidean distance) 是 度量 两 个 对 象 之 间距 离 的 最 常用 的 方法 之 一 ， 


如 下 式 : 
迷 
Euclidean(O;,0;) = | > (ou — ou) (9-37) 
d=1 


Oi 为 p 维 空间 中 的 对 象 ,用 数值 撩 量 0; 二 {0;11 二 j 二 p) 表 示 。 其 中 ,05 表 示 第 i 个 
数据 对 象 的 第 7 个 特征 的 值 , 表示 特征 的 数目 。 


9.8 视频 结构 索引 


在 视频 数据 的 浏览 和 检索 过 程 中 ,需要 对 视频 数据 进行 大 量 随 机 的 浏览 检索 、 视 频 帧 
抽取 、 剪 辑 以 及 播放 等 操作 ,而 MPEG 码 流 对 随机 读 取 的 支持 并 不 好 ,这 主要 是 因为 以 下 
几 点 。 

(1) MPEG 采用 差分 预测 编码 ,因此 每 帧 编码 数据 的 大 小 不 固定 ,即使 是 固定 比特 率 
的 MPEG 编码 流 , 帧 之 间 的 大 小 差异 也 非常 显著 。 

(2) MPEG 帧 的 解码 可 能 依赖 于 码 流 中 的 其 他 帧 ,例如 了 帧 的 解码 依赖 于 在 前 面 的 I 
帧 或 P 帧 ,B 帧 的 解码 依赖 于 前 面 或 后 面 的 P 帧 ,其 实 无 论 是 P 帧 还 是 B 帧 的 解码 都 依赖 
于 它们 前 面 第 一 个 1 帧 的 解码 ,否则 都 无 法 恢复 出 图 像 。 

MPEG 编码 数据 本 身 并 没有 提供 随机 定位 视频 帧 的 机 制 ,而 在 视频 数据 的 浏览 和 检 
索 过 程 中 ,需要 大 量 地 随机 操作 MPEG 数据 ,这 些 操作 又 几乎 都 离 不 开 视 频 结 构 索 引 的 
信息 。 这 使 得 解决 MPEG 码 流 中 的 精确 随机 读 取 、 建 立 视频 结构 索引 的 问题 显得 十 分 


第 9 章 视频 信息 检索 / 303 


突出 。 


9.8.1 视频 结构 索引 的 机 制 

在 视频 数据 中 ,人 们 能 访问 到 的 最 小 单位 就 是 图 像 帧 ,无 论 是 视频 图 像 或 关键 帧 图 像 
的 随机 浏览 ,还 是 随机 播放 或 视频 剪辑 ,都 是 从 某 一 帧 开始 。 而 视频 结构 索引 所 要 达到 的 
目标 就 是 能 按 需求 随机 定位 到 视频 的 某 一 帧 。 因 此 ,只 要 能 为 视频 数据 里 每 一 帧 图 像 建 
立 好 索引 信息 ,就 可 以 在 任何 时 候 从 该 帧 访问 视频 数据 。 

在 建立 MPEG 数据 流 的 编码 结构 模型 和 帧 序列 的 结构 模型 时 ,得 到 的 信息 非常 多 ， 
例如 ,视频 帧 在 数据 中 的 字 节 位 置 (position) 可 以 挖掘 时 间 信 息 (time-stamp)、 帧 序号 
({rame-ID) 、 帧 类 型 (frame) 以 及 帧 的 预测 长 度 等 。 

帧 序号 有 两 种 : 一 种 是 在 编码 数据 里 的 编码 序号 ,也 称 绝 对 帧 号 ,对 于 任意 一 段 视频 
数据 ,其 第 一 帧 图 像 的 绝对 帧 号 一 般 不 为 1; 另 一 种 是 相对 帧 号 , 即 在 解码 过 程 中 ,可 以 用 
一 个 计数 器 累计 解码 的 帧 数 ,这 种 情况 下 对 于 任意 一 段 视 频 其 帧 号 都 是 从 1 开始 累积 的 。 

预测 长 度 指 当 前 帧 与 第 一 个 工 帧 之 间 间 隔 的 帧 数 ,而 在 解码 的 时 候 可 以 统计 得 到 每 
一 帧 在 编码 数据 里 的 字 节 数 , 因 此 也 就 可 以 以 此 作为 预测 的 字 节 长 度 。 由 于 所 有 的 了 帧 
和 B 帧 的 解码 都 依赖 于 I 帧 解码 ,因此 了 工 帧 的 索引 信息 是 整个 视频 结构 索引 中 最 基本 的 
信息 。 

从 上 面 的 分 析 可 以 看 出 : 在 解码 MPEG 数据 的 过 程 中 ,通过 建立 数据 流 的 结构 模 
型 ,我 们 就 可 以 建立 起 视频 帧 的 索引 ,之 后 也 就 可 以 通过 这 些 索引 信息 随机 、 快 速 地 从 任 
意 位 置 开 始 访问 视频 数据 。 结 合 视频 帧 的 索引 信息 和 视频 结构 化 分 析 的 结果 (如 镜头 起 
始 帧 号 结束 帧 号 或 字 节 位 置 ,关键 帧 帧 号 或 字 节 位 置 等 ) ,就 可 以 建立 起 视频 的 结构 索 
引 , 这 就 是 视频 结构 索引 的 建立 过 程 。 


9.8.2 索引 信息 的 存储 

1. 基于 文件 存储 的 方法 

在 建立 视频 结构 索引 的 过 程 中 ,还 需 考虑 索引 信息 的 存储 问题 。 传 统 的 索引 信息 存 
储 方式 是 : 先 分 析 整 个 MPEG 码 流 , 把 提取 得 到 的 帧 索引 信息 临时 存放 于 内 存 之 中 ,等 
分 析 完 全 部 MPEG 码 流 以 后 ,再 将 所 有 的 索引 信息 存储 为 一 个 索引 文件 。 之 后 就 可 以 基 
于 该 索引 文件 保留 的 视频 结构 信息 随机 地 精确 访问 MPEG 数据 了 。 

基于 文件 的 视频 结构 索引 虽然 解决 了 视频 数据 的 随机 访问 问题 ,但 是 也 存在 不 足 , 主 
要 体现 在 以 下 几 个 方面 。 
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(1) 不 能 在 视频 处 理 过 程 中 浏览 和 检索 视频 处 理 结果 ,因为 在 视频 处 理 完毕 以 前 , 帧 
的 索引 信息 均 在 内 存 中 ,还 没有 生成 索引 文件 ,浏览 终端 访问 不 到 这 些 信 息 , 也 就 无 法 浏 
览 处 理 结果 ,同样 也 无 法 检索 视频 的 内 容 分 析 结 果 。 

(2) 基于 文件 索引 的 视频 处 理 系统 鲁 棒 性 不 够 高 。 在 实际 的 视频 检索 系统 中 ,有 可 
能 由 于 某 种 原因 (如 数据 的 误 码 率 比 较 大 ) 导 致 系统 没有 处 理 完 视频 数据 就 不 能 再 运行 
了 ,一 方面 对 于 依赖 于 索引 文件 的 浏览 和 检索 将 无 法 进行 , 另 一 方面 可 能 会 影响 到 后 面 的 
视频 数据 的 处 理 。 

(3) 索引 文件 的 管理 和 维护 会 随 着 视频 数据 量 的 增加 变 得 越 来 越 困 难 。 当 处 理 大 量 
的 视频 数据 时 ,也 就 意味 着 会 存在 大 量 的 索引 文件 ,那么 对 这 些 文件 的 管理 和 维护 也 就 会 

2. 基于 数据 库 的 方法 

从 上 述 的 分 析 可 以 看 到 ,基于 文件 的 视频 结构 索引 ,最 大 的 不 足 就 是 不 能 在 视频 处 理 
的 时 候 浏 览 和 检索 处 理 的 结果 。 这 对 于 基于 文件 的 视频 处 理 固 然 不 会 有 太 大 影响 ,但 是 
对 于 有 实时 浏览 和 检索 需求 的 视频 流 处 理 就 是 不 可 容忍 的 事 了 ,例如 处 理 的 视频 流 若 为 
两 个 小 时 的 新 闻 ,那么 就 意味 着 需要 两 个 小 时 以 后 才能 浏览 和 检索 这 段 新 闻 视频 的 处 理 
结果 。 经 大 量 的 实际 应 用 和 研究 发 现 ,基于 数据 库 的 视频 结构 信息 存储 方法 可 以 解决 视 
频 检 索 系 统 中 的 实时 浏览 检索 问题 。 

该 方法 的 出 发 点 有 两 点 : 一 是 在 视频 检索 系统 中 ,通常 是 以 镜头 (关键 帧 ) 为 基本 单 
位 进行 浏览 和 检索 ,而 非 基于 视频 帧 ,因此 无 须 存储 所 有 视频 帧 的 索引 信息 ,只 需 镜头 边 
界 和 关键 帧 的 索引 信息 即 可 ;二 是 由 于 P、B 帧 的 解码 均 依赖 于 前 面 的 1 帧 ,通常 预测 长 度 
最 长 为 一 个 图 组 长 度 ,这 不 会 影响 到 实际 应 用 ,因此 ,可 以 把 镜头 边界 都 定位 在 1 帧 ,关键 
帧 也 为 1 帧 (镜头 中 的 第 一 个 或 最 后 一 个 或 中 间 一 个 1 帧 丝 可 )。 结 合 以 上 两 点 ,把 视频 结 
构 信 息 存 于 数据 库 的 方法 , 即 把 镜头 边界 和 关键 帧 ( 皆 基 于 工 帧 ) 的 索引 信息 存 于 数据 库 
中 ,这 样 做 有 以 下 优点 。 

(1) 可 实时 地 取出 数据 库 中 的 索引 信息 用 于 浏览 和 检索 ,以 满足 视频 处 理 和 浏览 检 
索 的 实时 性 要 求 。 即 只 要 有 处 理 结果 .就 可 对 其 浏览 检索 。 

(2) 由 于 只 存储 镜头 边界 和 关键 帧 的 索引 信息 ,相当 于 一 个 镜头 内 仅 需 存 几 个 视频 
帧 的 索引 信息 ,因此 大 大 减少 了 存储 空间 。 

(3) 可 以 基于 数据 库 方便 地 统一 管理 视频 信息 ,解决 了 海量 视频 数据 的 管理 和 维护 
问题 。 

(4) 后 续 的 视频 处 理 不 会 影响 到 视频 数据 的 浏览 和 检索 ,系统 的 鲁 棒 性 大 大 提高 。 
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9.9 视频 摘要 


由 于 视频 索引 是 由 镜头 中 的 关键 帧 构成 的 ,是 静止 的 图 像 , 用 户 有 时 并 不 能 通过 这 些 
不 连贯 的 图 像 得 到 自己 想 要 的 信息 ,这 就 需要 我 们 对 视频 进行 分 析 。 

视频 分 析 和 处 理 的 初期 主要 集中 在 分 析 视 频 帧 的 低层 特征 上 ,例如 颜色 形状、 纹理 
等 ;而 目前 的 研究 则 主要 集中 在 更 加 接近 直观 内 容 的 分 析 上 ,其 中 一 个 重要 的 研究 内 容 就 
是 如 何 从 原始 视频 中 提取 视频 片段 ,同时 保留 比较 完整 的 视频 内 容 以 及 如 何 实现 对 视频 


(video abstraction) 。 

一 篇 文章 的 摘要 ,就 是 对 文章 的 简要 总 结 , 而 视频 摘要 的 概念 则 是 从 文本 摘要 延续 而 
来 的 ,顾名思义 ,视频 摘要 就 是 对 一 个 较 长 的 视频 文件 的 内 容 所 进行 的 一 个 简短 的 小 结 。 
视频 摘要 是 静止 图 像 或 者 是 运动 图 像 的 序列 (这 些 图 像 序 列 可 以 附带 音频 也 可 以 不 带 )， 
这 个 序列 比 原始 视频 要 短 很 多 ,但 是 这 个 序列 应 保留 原始 视频 的 基本 内 容 , 以 便 能 够 实现 
对 原始 视频 进行 快速 浏览 和 检索 。 

1. 视频 摘要 的 分 类 

视频 摘要 就 是 通过 对 视频 进行 分 析 处 理 后 ,自动 生成 紧凑 的 能 够 充分 表现 视频 语义 
内 容 的 静止 或 者 运动 的 图 像 序 列 。 视 频 摘 要 还 可 根据 是 静止 图 像 序列 还 是 运动 图 像 序列 
划分 ,可 分 为 视频 概要 (video summary) 和 缩 略 视频 (video skimming) 两 大 类 ,其 进一步 细 
分 如 图 9-5 所 示 。 


视频 摘要 
视频 概要 缩 略 视频 
| | 
, 一 般 精彩 专题 
标题 海报 故事 板 缩 略 视频 剪辑 视频 缩 略 视频 
图 9-5 ”视频 摘要 


对 于 视频 概要 ,可 以 分 为 标题 ,海报 和 故事 板 三 类 ,其 中 标题 是 对 视频 内 容 的 一 段 简 
短 的 文字 描述 ,这 种 方式 虽 是 最 紧凑 最 简单 的 视频 摘要 形式 ,但 是 却 很 难 由 计算 机 自动 生 
成 能 准确 概括 视频 内 容 的 文字 描述 ;海报 又 称 为 视频 代表 帧 , 它 是 一 幅 对 原始 视频 有 代表 
意义 的 图 像 , 它 可 以 提供 直观 的 可 视 信息 ,但 是 无 法 表现 视频 的 动态 特性 ;故事 板 是 从 原 
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始 视频 中 提取 的 ,按照 一 定 顺序 和 一 定形 式 排 列 的 多 帧 代表 帧 图 像 序列 , 它 可 以 给 用 户 提 
供 视频 的 总 体 描述 ,在 浏览 中 也 可 以 方便 地 定位 到 用 户 感 兴趣 的 部 分 。 在 视频 概要 的 生 
成 过 程 中 ,一 般 不 需要 伴音 和 文本 的 辅助 ,由 于 不 存在 时 间 同 步 的 问题 ,因此 不 仅 实现 速 
度 快 ,显示 速度 也 很 快 。 视 频 概 要 还 可 以 用 全 景 图 拼接 法 来 表现 更 加 全 面 和 准确 的 信息 ， 
也 可 以 通过 一 定 的 空间 关系 来 显示 时 序 图 像 。 

对 于 缩 略 视频 ,可 以 分 为 精彩 剪辑 视频 ,专题 缩 略 视频 和 一 般 缩 略 视频 三 类 ,其 中 精 
彩 剪辑 视频 就 是 前 面 提 到 的 在 电影 电视 中 应 用 广泛 的 视频 摘要 ,为 了 吸引 观众 ,剪辑 视频 
一 般 由 原始 视频 中 的 精彩 画面 组 成 ,并 且 不 包含 故事 的 结局 ;专题 缩 略 视频 是 特定 领域 视 
频 的 摘要 ,专题 缩 略 视频 的 实现 一 般 都 要 结合 该 领域 的 知识 来 采用 比较 特殊 的 方法 ;一 般 
缩 略 视频 是 相对 于 专题 缩 略 视频 而 言 的 , 它 是 一 些 视频 片段 的 序列 ,用 户 可 以 通过 播放 这 
些 相对 短小 的 视频 片段 来 了 解 整个 视频 的 内 容 。 与 视频 概要 相 比 , 缩 略 视频 有 其 自身 的 
优势 , 即 缩 略 视频 可 能 比 视频 概要 中 单纯 的 静止 图 像 更 加 有 意义 ,对 用 户 而 言 ,理解 起 来 
更 加 自然 有 趣 , 例 如 在 纪录 片 中 ,视频 的 伴音 就 包含 有 重要 的 信息 ,因此 ,在 很 多 情况 下 ， 
以 缩 略 视频 作为 摘要 更 加 合适 。 

2. 视频 概要 的 实现 方法 

视频 概要 是 最 能 代表 视频 内 容 的 静止 图 像 集合 ,因此 ,关键 帧 的 提取 是 视频 概要 实现 
的 主要 技术 。 目 前 概要 生成 的 方法 按 帧 镜头、 场景 的 视频 层次 结构 划分 ,主要 有 基于 镜 
头 的 概要 生成 方法 和 基于 场景 的 概要 生成 方法 两 类 。 

(1) 基于 镜头 的 概要 生成 方法 。 既 然 镜头 被 定义 为 一 个 连续 的 视频 帧 序列 ,那么 在 
这 个 序列 中 就 不 存在 场景 或 者 摄像 机 运动 的 突变 ,因此 一 个 很 简单 自然 的 方法 就 是 把 每 
个 镜头 的 第 一 帧 作为 关键 帧 。 如 果 镜 头 内 的 内 容 变 化 不 大 , 则 一 帧 关键 帧 就 足够 了 ;和 否则 
就 应 该 提取 多 帧 关键 帧 。 但 是 ,提取 镜头 中 的 哪些 帧 作为 关键 帧 呢 ? 在 目前 计算 机 语义 
理解 还 很 困难 的 情况 下 ,大 多 以 低层 视觉 特性 (例如 颜色 .运动 等 ) 为 衡量 标准 来 抽取 多 帧 
关键 帧 。 

(2) 基于 场景 的 关键 帧 提取 方法 。 对 于 基于 镜头 的 关键 帧 提取 方法 ,如 果 是 长 视频 ， 
那么 将 提取 数 以 百 计 的 关键 帧 ,这 样 浏览 起 来 不 仅 费 时 ,而 且 低 效 。 基 于 此 原因 ,人 们 开 
台 考 虑 基于 更 高 一 层 的 视频 单元 的 关键 帧 提取 法 , 称 为 基于 场景 的 关键 帧 提取 法 。 这 里 
的 场景 比 视频 层 次 结构 中 的 场景 更 广泛 .更 丰富 , 它 可 以 是 一 幕 情景 .一 个 事件 ,甚至 是 整 
个 视频 序列 。 

除了 以 上 谈 到 的 用 关键 帧 来 构造 视频 概要 的 方法 外 ,还 有 很 多 结合 其 他 技术 的 视频 
摘要 生成 法 ,如 马里 兰 大 学 把 视频 序列 表示 成 高 维特 征 空间 的 曲面 来 生成 视频 摘要 。 雅 
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典 大 学 把 模糊 算法 和 遗传 算法 (genetic algorithxn,.GA) 运 用 到 视频 摘要 中 。 此 外 还 有 结 
合 小 波 变换 、 人 脸 探 测 等 技术 来 提取 关键 帧 的 方法 。 

3. 缩 略 视频 的 实现 方法 

缩 略 视频 有 以 下 三 种 实现 方法 。 

1) 视频 剪辑 的 实现 方法 

视频 剪辑 是 一 类 比较 特殊 的 视频 摘要 , 它 是 原始 视频 中 精彩 场景 的 集合 ,但 是 并 不 包 
含 故事 的 结局 ,通俗 的 称呼 是 片花 。 德 国 的 曼 海 姆 大 学 对 剪辑 视频 曾 做 过 研究 ,其 研究 焦 
点 就 是 精彩 场景 的 探测 和 选取 。 研 究 人 员 首 先 认为 包含 有 强烈 对 比 的 前 后 帧 可 能 包含 有 
重要 对 象 的 重要 事件 ;然后 他 们 把 表示 整个 视频 段 的 基本 颜色 基调 的 场景 也 包括 在 视频 
摘要 中 ;最 后 ,把 所 有 选取 的 场景 按照 时 序 组织 起 来 ,但 是 ,在 他 们 的 研究 项 目 中 ,由 于 研 
究 人 员 对 问题 的 复杂 性 尚 考虑 不 够 ,所 采用 的 算法 还 比较 简单 ,因此 效果 有 时 候 不 是 很 
好 ,还 有 待 进一步 提高 。 

2) 专题 缩 略 视频 的 实现 方法 

专题 缩 略 视频 是 一 种 针对 某 一 特定 领域 视频 数据 的 缩 略 视频 。 对 于 专题 缩 略 视频 ， 
一 般 可 结合 该 领域 的 专题 知识 ,采用 特殊 的 方法 来 生成 视频 摘要 。 设 计 了 一 种 专门 针对 
该 研究 机 构 每 周 例会 的 视频 摘要 系统 , 即 利用 例会 比较 统一 的 履行 程序 ,把 低层 的 信号 事 
件 和 高 层 的 语义 事件 关联 起 来 生成 缩 略 视 频 。 可 见 ,专题 缩 略 视频 是 从 专题 知识 出 发 ,更 
多 的 是 采用 基于 模型 而 不 是 基于 内 容 的 方法 来 生成 摘要 。 

3) 一 般 缩 略 视频 的 实现 方法 

事实 上 ,选取 整个 视频 中 最 精彩 的 图 像 帧 往往 是 由 人 主观 确定 的 ,而 且 如 何 把 人 的 认 
识 与 计算 机 匹配 起 来 是 一 件 非常 困难 的 事情 。 基 于 以 上 原因 ,目前 缩 略 视频 的 重点 集中 
在 一 般 缩 略 视频 的 研究 上 。 一 般 缩 略 视频 实现 的 一 个 最 直观 的 方法 就 是 通过 压缩 原始 视 
频 来 加 速 视频 回放 的 速度 。 这 种 方法 虽然 有 一 定 的 效果 ,但 是 它 存 在 压缩 比 的 限制 ,因为 
这 些 压缩 算法 是 依赖 于 语音 速度 的 ,如 果 压 缩 比 过 高 ,那么 语音 将 无 法 理解 。 从 目前 视频 
摘要 技术 的 发 展 来 看 ,一 般 缩 略 视频 的 实现 主要 采用 多 特征 融合 的 方法 ,也 就 是 结合 文 

\ 音 频 和 视频 等 媒体 的 特征 来 生成 视频 摘要 。 

综 上 所 述 ,目前 的 视频 摘要 技术 的 研究 重点 主要 集中 在 低层 特征 上 ,从 而 所 形成 的 视 
频 摘 要 不 太 符 合 人 类 的 理解 。 在 如 何 建立 低层 特征 与 高 层 语义 概念 的 关联 方面 的 研究 目 
前 还 很 少 。 在 基于 内 容 的 视频 检索 中 ,视频 摘要 生成 结果 的 好 坏 具 有 决定 性 的 作用 。 因 
此 ,如 何 集成 现 有 成 熟 技 术 到 视频 摘要 系统 中 ,使 得 视频 分 析 与 检索 系统 能 够 真正 商业 化 
应 用 ,也 是 研究 的 重点 问题 之 一 。 


308 /大 学 生 信息 检索 素养 教程 


9.10 视频 语义 检索 模型 


视频 信息 检索 是 多 媒体 领域 的 重要 研究 课题 ,是 跨越 图 像 处 理 、. 计 算 机 视觉 .模式 识 
别 \ 人 工 智 能 以 及 数据 库 技 术 等 方面 的 交叉 领域 ,是 对 文本 .图像 .声音 等 多 种 媒体 形式 的 
综合 分 析 和 查询 。 当 前 视频 信息 检索 的 研究 主要 集中 在 两 大 类 : 一 类 是 基于 视频 低层 特 
征 的 样 例 或 样 图 查询 (query by examples), 另 一 类 是 基于 视频 描述 信息 的 语义 查询 
(query by keywords) 。 

第 一 类 属于 基于 样本 视频 或 图 片 的 查询 ,是 利用 用 户 给 出 的 查询 样 例 , 提 取样 例 视频 
和 数据 库 视频 的 低层 物理 特征 ,并 根据 一 定 的 相似 度 度量 ,通过 计算 二 者 之 间 的 相似 度 得 
到 用 户 所 需 的 查询 结果 。 

第 二 类 属于 基于 关键 词 的 查询 ,是 通过 对 视频 库 中 的 视频 数据 进行 高 层 语义 分 析 , 通 
过 用 户 提 供 的 查询 关键 词 对 视频 内 容 进行 检索 。 

这 两 类 视频 检索 方法 分 别 从 低层 物理 特征 和 高 层 语义 特征 两 个 方面 ,对 视频 内 容 进 
行 分 析 和 检索 ,是 视频 检索 领域 两 个 重要 的 研究 方向 。 从 2001 年 至 今 ,诸如 CMU 、IBM 
等 研究 机 构 已 相继 提出 了 一 些 优秀 的 高 层 语 义 提 取 算 法 ,并 且 取 得 了 较 好 的 研究 成 果 。 

视频 语义 检索 模型 主要 组 成 模块 包括 底层 特征 提取 模块 、 底 层 特 征 向 高 层 语义 映射 
模块 、 视 频 语 义 查 询 模块 。 其 模型 图 如 图 9-6 所 示 。 


9.10.1 底层 特征 提取 模块 
该 模块 主要 包括 视频 镜头 检测 .关键 帧 提取 、 特 征 提取 三 种 关键 技术 ,这 三 种 关键 技 
术 在 本 章 的 前 半 部 分 进行 了 叙述 ,此 处 不 再 进行 著述 。 


9.10.2 底层 特征 向 高 层 语义 映射 模块 

底层 特征 空间 包括 视觉 特征 和 非 视觉 特征 ,这 些 特 征 一 般 可 以 从 视频 数据 中 直接 提 
取 。 语 义 概 念 空间 对 应 于 人 们 通常 思维 中 的 高 级 语义 概念 。 从 认 知 层次 角度 进行 视频 语 
义 划分 的 语义 概念 ,主要 包括 事件 .场景 地 点 和 对 象 三 类 。 但 底层 特征 对 用 户 不 可 见 , 只 
有 将 其 映射 到 高 层 语义 概念 空间 ,才能 使 用 户 识别 ,它们 之 间 无 法 直接 用 数学 模型 完成 映 
射 转换 ,这 两 个 空间 之 间 存 在 着 难以 直接 跨越 的 语义 鸿沟 ,如 何 解 决 语义 鸿沟 是 视频 语义 
检索 研究 的 一 个 重点 问题 。 

底层 特征 向 高 层 语义 映射 模块 主要 是 映射 变换 模型 的 构建 , 即 语义 概念 分 类 模型 的 
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底层 特征 提取 模块 视频 语义 查询 
视频 流 
相 上 |L_ 用 户 "下 | 查 
关 询 
及 结 
界 检测 饥 广 一 | 查询 接口 及 
| 1 
二 a 搜索 引擎 
索引 过滤 
关键 帧 提取 党 3 


映射 /变换 视频 


关键 帧 特征 库 语义 库 


语义 概念 分 


类 提取 模型 
底层 特征 向 高 层 语义 映射 模块 
图 9-6 视频 语义 检索 模型 


构建 。 提 取 视 频 语 义 的 主要 方法 包括 概率 统计 方法 、 统 计 学 习 方法 、 基 于 规则 推理 的 方 
法 结合 特定 领域 的 方法 等 。 

(1) 概率 统计 方法 。 将 视频 语义 对 象 提取 看 做 是 待 提取 视频 语义 对 象 的 分 类 问题 ， 
利用 模式 分 类 方法 来 尝试 跨越 语义 鸿沟 。 语 义 检索 的 随机 方法 关注 的 是 模型 概率 特性 ， 
其 核心 思想 是 用 随机 数学 方法 来 描述 对 象 的 不 同 特征 并 在 此 基础 上 建立 多 媒体 概念 模式 
分 类 器 。 随 机 模型 中 加 入 学 习 / 识 别 模块 ,主要 是 为 了 能 反映 媒体 内 容 本 质 的 非 确定 性 。 

(2) 统计 学 习 方法 。 基 于 支持 向 量 机 (support vector machine,SVM) 的 统计 学 习 理 
论 ,建立 在 计算 学 习 理 论 的 结构 风险 最 小 化 原则 之 上 。 其 目的 是 在 高 维 空间 寻找 一 个 超 
平面 作为 两 类 的 分 割 , 以 保证 最 小 的 分 类 错误 率 。 此 类 模型 在 只 有 小 训练 样 例 集 的 情况 
下 ,分 类 效果 较 好 。 先 提取 训练 图 像 库 的 底层 特征 信息 ,然后 利用 SVM 对 所 提取 的 特征 
进行 训练 ,构造 多 分 类 器 。 在 此 基础 上 ,利用 分 类 器 对 测试 图 像 自动 分 类 ,得 到 图 像 属于 
各 个 类 别 的 概率 ,从 而 建立 这 些 底层 特征 与 视频 类 型 之 间 的 联系 。 

(3) 基于 规则 推理 的 方法 。 基 于 规则 推理 的 方法 考虑 直接 从 系统 外 给 定 分 类 标准 ， 
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因此 语义 概念 的 种 类 固定 ,难以 满意 地 描述 视频 内 容 中 大 量 随机 出 现 的 语义 概念 。 例 如 ， 
通过 分 析 足 球 视频 的 语义 结构 ,按照 足球 比赛 转播 .视频 编辑 的 一 般 规律 ,结合 视频 特征 
的 时 空 关 系 , 定 义 足 球 视频 主要 的 语义 规则 ,从 而 提出 了 足球 视频 语义 事件 的 分 析 框 架 并 
结合 基于 专业 知识 的 规则 推理 ,达到 有 效 分 析 足 球 视频 语义 的 目的 。 

(4) 结合 特定 视频 域 。 限 定 、 缩 小 视频 域 (narrowing the donmin) 是 目前 跨越 语义 鸿 
沟 的 有 效 方法 之 一 。 限 定 特定 的 领域 后 ,语义 概念 和 事件 的 随机 性 就 被 缩小 了 ,简化 了 底 
层 和 高 层 之 间 的 语义 映射 关系 。 例 如 在 影片 语义 分 析 领 域 ,结合 影片 的 特点 只 用 四 个 视 
觉 特 征 将 电影 分 为 悲剧 、 动 作 、 戏 剧 和 慌 怖 片 几 种 类 型 ,达到 影片 语义 分 类 的 目的 。 

上 述 这 些 方法 在 视频 语义 概念 分 类 中 虽 有 一 定 的 应 用 但 效果 还 不 理想 ,有 待 于 进 一 
步 完 善 与 发 展 。 而 目前 基于 支持 向 量 机 (SVM 的 方法 在 语义 概念 分 类 中 显示 出 一 定 的 
优越 性 。 视 频 语 义 查询 模块 使 用 户 通过 查询 接口 输入 相应 的 查询 语义 ,系统 应 能 在 视频 
语义 库 中 进行 信息 匹配 。 并 将 查询 结果 返回 用 户 。 用 户 根据 本 次 查询 结果 与 自己 期 望 结 
果 间 的 相关 性 ,向 系统 提交 相关 反馈 信息 。 系 统 则 根据 用 户 的 反馈 来 自动 调整 查询 的 内 
容 继续 检索 ,使 查询 结果 向 用 户 期 望 最 佳 " 允 近 ”。 

(5) 基于 支持 向 量 机 (SVM) 方 法 的 语义 概念 分 类 模型 。 支 持 向 量 机 是 一 种 非常 流行 
的 学 习 机 器 ,从 模式 识别 领域 的 角度 看 , 它 是 一 个 有 监督 学 习 的 分 类 器 。 使 用 它 分 类 需要 
先 训 练 ,再 预测 测试 数据 ,向 量 是 它 的 操作 对 象 。 根 据 向 量 在 空间 的 分 布 ,可 以 分 为 “可 分 
数据 -线形 机 器 >“ 不 可 分 数据 -线形 机 器 ?和 * 非 线形 机 器 ”这 三 种 情况 。 首 先 从 最 简单 的 
线形 可 分 的 情况 开始 ,再 逐渐 讨论 SVM 在 其 他 两 种 情形 下 的 发 展 和 变化 。 

SVM 的 思想 总 结 为 : 一 方面 ,有 意 使 特征 ( 核 ) 空 间 的 维 数 足 够 大 ,使 得 可 以 在 这 个 
空间 建立 超 平 面 形 式 的 决策 面 。 为 了 得 到 好 的 泛 化 性 能 ,通过 对 所 建立 的 超 平面 添加 一 
些 特定 的 约束 条 件 来 控制 VC 维 数 , 降 低 模型 复杂 性 ,这 导致 训练 数据 的 一 小 部 分 被 抽出 
来 作为 支持 向 量 。 另 一 方面 ,在 高 维 空间 的 数值 最 优化 受到 维 数 灾 难 的 影响 ,通过 使 用 一 
个 内 积 核 的 概念 和 求解 在 输入 (数据 ) 空 间 用 形式 约束 最 优化 问题 的 对 偶 形 式 , 避 免 了 计 
算 上 的 维 数 灾难 问题 。 


9.10.3 视频 语义 查询 模块 

视频 语义 查询 模块 使 用 户 通过 查询 接口 输入 相应 的 查询 语义 ,系统 能 在 视频 语义 库 
中 进行 信息 匹配 ,并 将 查询 结果 返回 用 户 。 用 户 根据 本 次 查询 结果 与 自己 期 望 结果 间 的 
相关 性 ,向 系统 提交 相关 反馈 信息 。 相 关 反 馈 在 信息 检索 中 是 一 种 指导 性 学 习 方法 ,用 以 
提高 系统 的 检索 能 力 。 近 几 年 .人 们 对 相关 反馈 有 了 很 深 的 研究 ,许多 新 颖 的 算法 被 提 
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出 ,主要 有 三 类 : 第 一 类 是 权重 调整 算法 ;第 二 类 是 基于 支持 向 量 机 的 反馈 方法 ,是 在 每 
次 反馈 过 程 中 对 用 户 标记 的 正 例 和 反例 样本 进行 学 习 , 建 立 SVM 分 类 器 作为 模型 ,并 根 
据 该 模型 进行 检索 ;第 三 类 是 基于 贝 叶 斯 准则 的 相关 反馈 方法 ,其 基本 思想 是 根据 用 户 反 
馈 的 信息 进行 统计 判断 。 


9.10.4 语义 词典 的 应 用 

在 视频 检索 系统 中 ,利用 文本 标注 对 图 像 进行 检索 是 比较 常用 的 方法 ,但 一 般 的 系统 
都 是 先 对 标注 做 简单 的 文字 匹配 ,然后 提交 相应 的 结果 。 文 本 标注 和 用 户 输入 二 者 文字 
不 同 ,而 语义 一 致 ,这 种 方法 就 无 法 检索 到 相应 的 内 容 , 虽 然 有 些 系统 能 对 这 类 同义词 做 
例外 处 理 , 但 却 无 法 穷 举 所 有 的 情况 ,更 无 法 对 更 高 层次 的 语义 做 检索 。 许 多 研究 把 语义 
词典 引入 到 基于 语义 的 视频 检索 中 来 ,实现 图 像 语 义 关 键 词 的 扩充 ,提高 了 检索 的 全 面 
性 。WordNet 是 一 个 英文 词汇 的 语义 本 体 , 它 以 认 知 同义词 集合 为 单位 来 组 织 词 语 的 关 
系 。 其 中 词语 的 关系 包括 上 下 位 关系 、 整 体 部 分 关系 、 同 义 反 义 关系 等 。 正 是 由 于 
WordNet 的 这 种 构建 方式 , 越 来 越 多 的 研究 者 将 其 引入 到 了 信息 检索 领域 。 描 述 了 一 个 
基于 本 体 词汇 的 三 维 模型 语义 检索 的 方法 ,该 方法 首先 对 一 个 三 维 模型 库 的 词汇 进行 语 
义 上 的 扩充 ,然后 基于 关键 词 进行 检索 ,而 不 是 简单 的 文字 匹配 。 


9.11 典型 的 视频 检索 系统 


关于 基于 内 容 的 视频 分 析 与 检索 ,已 经 取得 了 很 多 研究 成 果 。 目 前 国内 外 已 研发 了 
多 个 基于 内 容 的 视频 检索 系统 ,典型 的 视频 检索 系统 主要 有 以 下 几 种 。 

(1) Visual Seek 和 Web Seek 系统 。Visual Seek 是 一 个 通用 的 搜索 引擎 ,是 一 个 基 
于 Web 的 图 像 /视频 搜索 工具 。 它 主要 是 根据 所 检索 图 像 中 不 同色 块 的 空间 关系 进行 相 
似 匹 配 ,另外 也 用 到 颜色 ,纹理 等 特征 提取 技术 。Visual Seek 提供 了 多 种 查询 方法 : 根据 
视觉 特征 、 图 像 注释 、 草 图 和 Web 上 搜索 所 有 特有 的 图 像 URL。 

Web Seek 是 一 个 专用 的 面向 网 络 的 搜索 引擎 。 它 的 目的 是 在 互联 网 上 建立 一 个 可 
视 化 对 象 的 自动 词典 供用 户 查 询 。 与 Visual Seek 一 样 , 它 也 是 采用 多 特征 提取 技术 进行 
匹配 ,并 提供 基于 注释 和 基于 图 像 视觉 信息 的 用 户 查 询 接 口 。 

(2) VideoQ 系统 。 该 系统 允许 用 户 通过 大 量 的 视觉 特征 和 空间 关系 进行 检索 ,其 目 
的 在 于 研究 基于 视频 对 象 的 视频 内 容 进 行 所 有 视觉 特征 的 检索 。 该 系统 的 研究 成 果 主 要 
包括 视频 内 物体 的 自动 分 割 、 自 动 追 踪 多 检索 对 象 视频 镜头 自动 分 割 等 。 扩 充 了 传统 的 
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关键 字 和 主题 导航 的 查询 方法 ,允许 用 户 使 用 视觉 特征 和 时 空 关系 来 检索 视频 。 由 于 视 
频 经 过 分 类 ,所 以 用 户 浏 览 镜头 十 分 方便 。 

(3) Marvel 系统 。 该 系统 是 一 个 多 媒体 分 析 和 检索 系统 ,由 IBM 研发 中 心 开发 。 
Marvel 的 目的 在 于 帮助 广播 公司 、 图 书馆 等 媒体 行业 管理 庞大 且 增 长 迅速 的 多 媒体 数 
据 , 使 之 更 有 效 、 更 智能 。Marvel 系统 包括 两 部 分 : 多 媒体 分 析 引 擎 和 多 媒体 查询 引擎 。 
Marvel 技术 使 用 了 独特 的 方法 对 音频 ,视频 、 文 本 信息 进行 分 析 和 理解 ,并 对 多 媒体 的 内 
容 自 动 地 进行 注释 。 

(4) MediaMill 搜索 引擎 。 一 个 语义 搜索 引擎 ,包含 了 阿姆斯特丹 大 学 在 图 像 视频 检 
索 方面 的 最 新 成 果 。 如 颜色 描述 算 子 设计 、 压 缩 码 本 设计 、 社 会 标记 (social tag) 相 关 性 分 
析 等 。 

(5) Informedia 系统 。 卡 内 基 ， 梅 隆 大 学 的 Informedia 数字 视频 图 书馆 系统 ,结合 
语音 识别 .视频 分 析 和 文本 检索 技术 ,支持 2000 小 时 的 视频 广播 的 检索 ;实现 全 内 容 的 、 
基于 知识 的 查询 和 检索 。 

(6) 国内 典型 的 视频 检索 系统 主要 有 : Ifind 信息 检索 系统 .NewVideoCAR 新 闻 节 
目 浏览 检索 系统 .MIRC 多 媒体 信息 检索 系统 .清华 大 学 开发 的 TV-FI 视频 节目 管理 系 
统 、. 汉 图 智能 分 析 与 视频 检索 系统 . 千 视 通海 量 视频 处 理 与 检索 系统 、 九 凌 视 频 分 类 检索 
系统 等 。 

由 此 可 以 看 出 ,目前 国际 上 已 经 对 视频 分 析 技 术 进行 了 比较 深入 的 研究 ,并 已 经 取得 
了 许多 研究 成 果 , 但 这 些 成 果 大 多 集中 在 对 于 一 些 底层 结构 和 底层 语义 特征 的 分 析 方 面 ， 
而 对 于 高 层 结 构 和 高 层 语义 特征 的 研究 还 不 成 熟 。 


本 章 小 结 


视频 数据 库 既 包含 了 视频 数据 本 身 的 内 容 , 也 包含 了 不 同 视频 数据 间 的 关联 数据 。 
视频 数据 库 系统 的 基础 是 视频 数据 模型 ,数据 模型 包括 数据 结构 和 操作 。 其 中 数据 结构 
既 要 研究 与 数据 本 身 内 容 相 关 的 对 象 ,也 要 研究 描述 不 同 视频 数据 间 关 系 的 对 ,而 数据 操 
作 则 只 是 数据 的 各 种 加 工 利用 方法 。 

视频 数据 不 仅 数量 大 ,结构 复杂 ,数据 元 余 性 突出 ,而 且 视 频 信息 的 丰富 内 容 带 来 人 
们 解释 的 多 样 性 和 模糊 性 。 视 频 图 像 除 了 图 像 本 身 特 有 的 元 余 信 息 以 外 ,还 包括 图 像 间 
的 元 余 信息 , 即 相 邻 的 视频 图 像 往往 具有 相同 或 相似 的 空间 和 视觉 特征 分 布 。 视 频数 据 
压缩 较 成 熟 的 标准 是 MPEG 系列 标准 。 
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基于 内 容 的 视频 检索 (content based video retrieval,CBVR) 指 根据 视频 的 内 容 及 上 
下 文 关系 ,对 大 规模 视频 数据 库 中 的 视频 数据 进行 检索 。 基 于 内 容 的 视频 检索 系统 , 先 将 
视频 流通 过 镜头 边界 检测 分 割 为 镜头 ,并 在 镜头 内 选择 关键 帧 ,再 提取 镜头 的 运动 特征 和 
关键 帧 的 视觉 特征 ,作为 一 种 检索 机 制 存 和 人 视频 数据 库 , 最 后 根据 用 户 提交 的 查询 , 按 一 
定 特征 进行 视频 检索 ,将 检索 结果 按 相 似 度 呈现 给 用 户 , 用 户 可 以 优化 查询 结果 ,系统 会 
依 用 户 意 见 灵活 优化 检索 结果 。 

镜头 是 视频 数据 的 基本 单元 ,所 以 基于 内 容 检索 的 视频 处 理 , 首 先 要 把 视频 自动 地 分 
市 为 镜头 ,以 作为 基本 的 索引 单元 ,这 个 过 程 就 称 为 镜头 边界 的 检测 ,也 叫 场 景 转换 检测 
(scene change detection ,SCD) , 它 是 实现 基于 内 容 的 视频 检索 的 第 一 步 。 通 常 的 边缘 检 
测 方法 是 先 通过 边缘 检测 算 子 找到 图 像 中 可 能 的 边缘 点 ,再 把 这 些 点 连接 起 来 形成 封闭 
的 边界 。 基 本 的 镜头 边界 检测 算法 有 两 类 ,一 类 是 基于 图 像 特 征 的 非 压 缩 域 边界 检测 , 另 
一 类 为 基于 编码 信息 的 压缩 域 边界 检测 。 

非 压缩 域 的 镜头 分 割 常 用 方法 有 基于 像素 的 方法 、 基 于 直方 图 的 方法 、 基 于 块 的 方 
法 .基于 边缘 改变 比例 的 方法 等 。 压 缩 域 中 镜头 分 割 常用 方法 有 基于 DCT 系数 的 方法 、 
基于 DC 系数 的 方法 、 基 于 运动 矢量 和 宏 块 预测 信息 的 方法 等 。 

一 个 镜头 包含 大 量 信 息 , 在 视频 结构 化 的 基础 上 ,依据 镜头 内 容 的 复杂 程度 选择 一 个 
或 多 个 关键 帧 代表 镜头 的 主要 内 容 , 因 此 关键 帧 (或 关键 帧 序列 ) 便 成 为 对 镜头 内 容 进 行 
表示 的 手段 。 关 键 帧 提取 方法 主要 分 为 两 类 : 基于 全 图 像 序列 的 方法 和 基于 压缩 视频 的 
方法 ,具体 有 基于 镜头 边界 的 方法 、 基 于 内 容 分 析 的 方法 、 基 于 光 流 的 运动 分 析 法 、 基 于 聚 
类 的 方法 、 基 于 压缩 视频 的 方法 等 。 

视频 数据 的 特征 又 分 为 静态 特征 和 动态 特征 。 静 态 特 征 的 提取 主要 针对 关键 帧 ,可 
以 采用 图 像 特征 提取 方法 ,如 提取 颜色 特征 、 纹 理 特 征 、 形 状 和 边缘 特征 等 。 获 取 视 频 运 
动 特征 的 方法 是 运动 估计 (motion estimation) ,运动 估计 是 指 从 当前 帧 图 像 中 获取 运动 
趋势 和 走向 的 过 程 ,是 数字 视频 稳 像 技术 、 视 频 压缩 编码 技术 的 核心 步骤 。 对 于 不 同 的 视 
频 图 像 序列 帧 间 的 运动 采用 不 同 的 变换 模型 ,常用 的 三 种 模型 有 平移 模型 .相似 模型 和 仿 
射 模型 。 

运动 估计 的 基本 思想 是 将 图 像 序 列 的 每 一 帧 分 成 许多 互 不 重 码 的 宏 块 , 并 认为 宏 块 
内 所 有 像素 的 位 移 量 都 相同 ,然后 对 每 个 宏 块 到 参考 帧 某 一 给 定 特定 搜索 范围 ,根据 一 定 
的 匹配 准则 找 出 与 当前 块 最 相似 的 块 , 即 匹配 块 ,匹配 块 与 当前 块 的 相对 位 移 即 为 运动 矢 
量 。 视 频 压 缩 的 时 候 , 只 需 保存 运动 矢量 和 残 差 数据 就 可 以 完全 恢复 出 当前 块 。 

视频 图 像 序 列 的 实质 是 灰 度 发 生 连 续 变化 的 一 组 图 像 , 灰 度 投影 法 就 是 利用 图 像 的 
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灰 度 分 布 变化 特性 获得 图 像 的 全 局 运动 位 移 矢 量 , 这 与 块 匹配 法 利用 单 像素 信息 先 获得 
小 块 的 局 部 运动 矢量 后 获得 全 局 运动 矢量 不 同 。 灰 度 投 影 法 是 利用 图 像 序列 的 行列 各 自 
投影 曲线 做 互相 关 处 理 , 进 而 获得 图 像 序列 的 全 局 运动 矢量 。 

特征 匹配 的 基本 原理 是 :通过 在 参考 帧 中 选取 典型 特征 作为 标识 ,并 在 当前 帧 中 以 一 
定 的 匹配 准则 进行 搜索 ,以 寻找 对 应 的 特征 结构 ,从 而 获得 图 像 序列 的 全 局 运动 矢量 。 

光 流 是 空间 运动 物体 在 观测 成 像 面 上 的 像素 的 运动 速率 分 布 , 反 映 了 在 一 定时 间 间 
隔 内 由 运动 所 造成 的 图 像 变 化 。 光 流 中 既 包括 了 被 观察 物体 的 动态 行为 信息 ,也 包括 了 
有 关 的 结构 信息 。 它 利用 图 像 序列 的 像素 强度 数据 的 时 域 变化 和 相关 性 来 确定 各 自 像素 
的 位 置 的 “运动 ”。 

视频 聚 类 是 研究 视频 流 中 镜头 之 间 的 关系 ,也 就 是 把 内 容 相近 的 镜头 重新 组 合 在 一 
起 ,用 以 描述 视频 中 有 意义 的 事件 ,或 是 为 了 缩小 检索 的 范围 ,提高 检索 的 效率 。 视 频 结 
构 索引 所 要 达到 的 目标 就 是 能 按 需 求 随机 定位 到 视频 的 某 一 帧 。 因 此 ,只 要 能 为 视频 数 
据 里 每 一 帧 图 像 建立 好 索引 信息 ,就 可 以 在 任何 时 候 从 该 帧 访问 视频 数据 。 

视频 摘要 就 是 对 一 个 较 长 的 视频 文件 的 内 容 所 进行 的 一 个 简短 的 小 结 。 视 频 摘要 是 
静止 图 像 或 者 是 运动 图 像 的 序列 (这 些 图 像 序列 可 以 附带 音频 也 可 以 不 带 ) ,这 个 序列 比 
原始 视频 要 短 很 多 ,但 是 这 个 序列 应 保留 原始 视频 的 基本 内 容 , 以 便 能 够 实现 对 原始 视频 
进行 快速 浏览 和 检索 。 视 频 摘 要 就 是 通过 对 视频 进行 分 析 处 理 来 自动 生成 紧凑 的 能 够 充 
分 表现 视频 语义 内 容 的 静止 或 者 运动 的 图 像 序列 。 

视频 语义 检索 模型 主要 构成 模块 包括 底层 特征 提取 模块 、 底 层 特征 向 高 层 语义 映射 


本 章 思 考 与 练习 题 


. 视频 数据 至 少 有 哪 两 个 基本 的 层次 结构 ? 

. 简 述 帧 镜头、 关键 帧 与 场景 的 各 自 含义 。 

. 视频 数据 有 哪些 显著 特点 ? 

.MPEG 的 含义 是 什么 ?其 主要 作用 是 什么 ” MPEG 有 何 优点 ? 
. MPEG 的 数据 流 包含 哪 三 种 成 分 ? 

. 如 何 理解 基于 内 容 的 视频 检索 的 概念 含义 ? 

. 简 述 基于 内 容 的 视频 检索 系统 结构 。 

. 简 述 视频 镜头 分 割 的 含义 。 镜 头 边界 检测 算法 有 哪 两 类 ? 
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9. 非 压缩 域 的 镜头 分 割 方法 突出 有 哪 几 种 ? 

10. 压缩 域 的 镜头 分 割 常 用 方法 有 哪些 ? 

11. 镜头 切 变 和 镜头 渐变 的 概念 含义 ? 

12. 检测 镜头 切 变 方法 的 基本 思想 是 什么 ? 

13. 关键 帧 提取 的 基本 原理 是 什么 ? 

14. 视频 关键 帧 提取 方法 主要 分 为 哪 两 类 ? 请 举例 说 明 。 

15. 目前 关键 帧 提取 的 主流 技术 是 什么 ”如 何 理解 其 基本 思想 ? 

16. 视频 语义 提取 的 含义 有 哪些 ? 

17. 视频 数据 的 特征 分 为 哪 两 类 ? 

18. 说 明 全 局 运动 矢量 的 均值 计算 方法 与 权重 值 计 算 方法 的 原理 。 

19. 常用 的 视频 运动 估计 数学 模型 有 哪些 ? 

20. 视频 运动 估计 的 基本 思想 是 什么 ? 

21. 如 何 理解 运动 估计 块 匹配 法 的 原理 ? 

22. 块 匹 配 运 动 估计 有 哪些 技术 指标 ? 

23. 如 何 理解 灰 度 投影 法 的 含义 ? 请 举例 说 明 。 

24. 特征 匹配 的 基本 原理 是 什么 ? 有 哪些 基本 逻辑 步骤 ? 

25. 光 流 法 的 含义 ?有 哪些 光 流 的 计算 方法 ? 

26. 说 明 视 频 聚 类 的 含义 与 基本 思想 。 

27. 视频 摘要 的 概念 含义 是 什么 ? 

28. 简 述 视频 摘要 和 缩 略 视频 的 实现 技术 。 

29. 视频 语义 检索 模型 主要 构成 模块 有 哪些 ? 简要 说 明 各 个 模块 的 含义 。 

30. 有 哪些 典型 的 视频 检索 系统 ?对 其 中 一 个 视频 检索 系统 的 应 用 方法 进行 详细 
说 明 。 


第 10 间 Web 信息 搜索 


Web 是 WWW(World Wide Web, 万 维 网 ) 的 简称 , 它 是 Internet 最 基本 、 最 广泛 的 应 
用 服务 ,也 是 最 主要 的 信息 资源 类 型 。 在 当今 信息 化 社会 ,无 论 政府 企业 还 是 个 人 对 信 
息 查 询 与 获取 都 有 强烈 的 需求 , 谁 能 更 快 更 有 效 地 获取 最 新 、 最 准确 和 最 全 面 的 信息 , 谁 
就 能 在 学 习 、 生 活 或 工作 中 取得 优势 。 但 是 “信息 越 多 等 于 没有 信息 ”已 成 为 人 们 的 普遍 
共识 ,在 海量 信息 中 对 于 特定 的 信息 需求 而 言 ,大 量 的 垃圾 信息 会 淹没 所 需 信息 。 因 此 ， 
Web 信息 采集 与 搜索 技术 也 就 应 运 而 生 。 对 于 信息 用 户 而 言 ,直接 面 对 的 Web 信息 获取 
工具 就 是 网 络 搜索 引擎 ,Google、Baidu 等 搜索 引擎 是 Web 信息 采集 与 搜索 的 典型 代表 。 


10.1 搜索 引擎 概述 


搜索 引擎 (search engine) 是 指 根据 一 定 的 策略 .运用 特定 的 计算 机 程序 搜集 互联 网 
上 的 信息 ,在 对 信息 进行 组 织 和 处 理 后 ,为 用 户 提供 检索 服务 的 网 络 系统 。 据 统计 ,搜索 
引擎 应 用 是 位 于 电子 邮件 和 社交 网 络 工 具 之 后 的 第 三 大 互联 网 应 用 ,成 为 人 们 获取 
Internet 信息 资源 的 重要 工具 和 手段 。 

搜索 引擎 源 于 1990 年 由 蒙特 利 尔 大 学 Alan Emtage 等 三 名 学 生发 明 的 Archie, 它 依 
靠 脚 本 程序 自动 搜索 并 分 析 FTP 服务 器 上 的 文件 名 信息 ,然后 对 其 进行 索引 构建 ,用 户 
必须 输入 精确 的 文件 名 进行 搜索 。Archie 是 第 一 个 自动 索引 互联 网 上 匿名 FTP 网 站 文 
件 的 程序 ,但 它 还 不 是 真正 的 搜索 引擎 。1994 年 4 月 ,斯 坦 福 大 学 的 两 名 博士 生 , 美 籍 华 
人 杨 致远 和 David Filo 共同 创办 了 超级 目录 索引 Yahoo ,由 于 它 所 收录 的 网 站 都 附 有 简 
介 信 息 , 所 以 搜索 效率 明显 提高 。 后 来 随 着 访问 量 和 收录 连接 数 的 增长 , Yahoo 开始 支持 
简单 的 数据 库 搜索 ,但 因为 Yahoo 的 数据 是 手工 输入 的 ,所 以 也 不 能 真正 被 归 为 现代 搜 
索引 擎 范畴 ,事实 上 只 是 一 个 可 搜索 的 目录 。 

现代 意义 上 最 早 的 搜索 引擎 出 现 于 1994 年 7 月 , 卡 内 基 ， 梅 隆 大 学 的 Michael 
Mauldin 将 John Leavitt 的 Spider 程序 接 人 到 其 索引 程序 中 ,创建 了 著名 的 Lycos, 它 除 
了 相关 性 排序 外 ,还 提供 前 级 匹配 和 字符 相近 限制 ,并 第 一 个 在 搜索 结果 中 使 用 网 页 自动 
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摘要 ,而 它 最 大 的 优势 是 远 胜 过 其 他 搜索 引擎 的 数据 量 。 此 后 ,搜索 引擎 进入 了 高 速 发 展 
时 期 ,目前 互联 网 的 搜索 引擎 已 达 数 百 家 , 其 检索 的 信息 量 也 十 分 庞大 。 


10.1.1 搜索 引擎 基本 结构 
一 般 情况 下 ,将 搜索 引擎 分 为 采集 器 .索引 器 .检索 器 和 用 户 接 口 四 个 部 分 , 见 


图 10-1 。 
-| 可 款 打 | .| 效 
器 | “| 数据 库 | ”| 痪 


图 10-1 搜索 引擎 基本 结构 

(1) 采集 器 。 采 集 器 的 核心 就 是 网 络 蜘蛛 (常常 称 为 网 络 疏 虫 ), 它 的 主要 作用 就 是 
按照 预先 设 定好 的 算法 ,从 网 络 上 尽 可 能 多 地 搜集 相关 的 信息 。 不 同 的 搜索 引擎 根据 其 
搜索 的 主题 的 不 同 可 以 将 网 络 蜂 蛛 的 算法 进行 调整 ,以 符合 相关 度 采集 的 需要 。 同 时 , 采 
集 器 还 要 定期 进行 更 新 ,其 目的 就 是 对 网 络 上 已 经 消失 或 者 过 时 的 信息 链接 进行 删除 和 
更 新 。 

(2) 索引 器 。 索 引 器 就 是 将 采集 器 搜集 来 的 链接 或 者 信息 进行 分 类 ,并 按照 一 定 的 
规则 进行 排列 生成 索引 。 索 引 器 首先 要 抽取 链接 中 的 主题 部 分 ,将 其 作为 索引 项 ,并 按照 
字 顺 或 者 数字 顺序 进行 排列 ,生成 索引 表 。 由 于 大 部 分 搜索 引擎 都 是 按 累 计 词 频 来 排列 
相关 度 的 ,加 上 中 文 词 频 的 高 频 词 往往 又 没有 实际 意义 ,所 以 索引 表 往 往 是 按 倒序 排列 
的 ,又 称 为 倒 排 索引 。 

(3) 检索 器 。 检 索 器 是 承载 用 户 接口 与 索引 器 的 桥梁 ,用 户 将 检索 词 提交 给 搜索 引 
擎 ,用户 接 口 将 其 传递 给 检索 器 ,检索 器 根据 用 户 的 检索 提问 ,将 其 规范 化 成 主题 词 , 并 从 
索引 数据 库 中 查找 相关 的 主题 词 ,最 后 将 查找 好 的 链接 或 者 信息 提交 给 用 户 。 检 索 器 一 
般 还 要 按 相关 性 对 结果 进行 排序 ,以 利于 将 最 相关 的 结果 呈现 给 用 户 。 

(4) 用 户 接 口 。 用 户 接 口 是 用 户 可 以 直接 看 得 见 的 。 无 论 传 统 搜索 引擎 ,还 是 智能 
搜索 引擎 ,它们 的 原理 和 结构 基本 相似 ,采集 器 、 检 索 器 和 索引 器 都 是 在 后 台 工 作 的 ,用 户 
根本 看 不 到 它们 是 如 何 工 作 的 ,只 有 用 户 接口 是 用 户 交互 的 模块 。 用 户 接 口 设计 得 好 与 
坏 直 接 关 系 到 搜索 引擎 的 受 欢迎 程度 ,大 部 分 搜索 引擎 的 用 户 接 口 都 是 简约 的 、 直 观 的 和 
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方便 应 用 的 。 用 户 接口 要 使 用 人 机 交互 的 理论 和 方法 来 实现 ,尽量 符合 人 们 的 信息 使 用 
习惯 。 


10.1.2 传统 搜索 引擎 基本 类 型 

搜索 引擎 经 历 了 近 30 年 的 快速 发 展 ,其 形式 和 所 专注 的 内 容 不 尽 相同 。 按 照 不 同 的 
分 类 标准 ,传统 搜索 引擎 可 以 划分 为 不 同 的 类 别 。 

(1) 目录 搜索 引擎 。 目 录 搜 索引 擎 也 被 我 们 称 为 网 络 目 录 , 它 是 按照 信息 的 主题 进 
行 分 类 存储 和 链接 的 一 种 简单 直观 的 搜索 引擎 。 它 一 般 按照 主题 领域 划分 ,每 个 主题 又 
包括 3 一 4 层 分 支 目 录 , 我 们 通过 这 些 目 录 来 进行 信息 检索 ,对 用 户 来 说 目录 既 方便 又 直 
观 , 有 利于 用 户 快速 找到 相关 信息 。 网 络 目录 通常 采用 网 络 信息 分 类 法 ,依据 网 站 性 质 或 
重点 可 以 着 重 突出 某 些 内 容 和 信息 ,也 可 以 根据 实时 情况 增加 某 些 目录 。 目 录 确 定之 后 ， 
然后 将 搜索 来 的 信息 分 门 别 类 地 存储 在 目录 之 下 ,以 供用 户 检 索 浏览 ,用 户 可 沿 着 分 类 目 
录 链 接 逐 级 浏览 查找 所 需 信息 而 不 用 关键 词法 进行 查询 。 目 录 搜 索引 擎 的 缺点 是 :由 于 
人 们 对 主题 的 认识 不 同 , 造 成 对 信息 的 分 类 也 不 同 , 这 样 就 造成 了 大 量 不 相关 的 信息 存储 
在 同一 目录 下 ,目录 层次 太 少 则 造成 信息 检索 的 精度 降低 ,目录 层次 太 多 会 使 信息 检索 检 
全 率 较 低 。 

(2) 全 文 搜索 引擎 。 全 文 搜索 引擎 就 是 利用 “ 蜂 蛛 ”(spider) 或 “机 器 人 ”(robot) 搜 集 
网 络 上 的 网 页 ,然后 将 网 页 分 类 ,组 织 到 搜索 引擎 数据 库 中 ,并 将 每 个 网 页 进行 全 文 标 引 。 
全 文 标 引 完 成 后 ,搜索 引擎 将 标 引 过 后 的 词句 建立 索引 ,形成 索引 数据 库 。 当 用 户 通 过 检 
索 接 口 进 行 检索 时 ,检索 接口 就 将 用 户 的 关键 词 与 索引 数据 库 进行 匹配 ,将 匹配 较 高 的 网 
页 和 信息 反馈 给 用 户 。 

全 文 搜索 引擎 由 于 将 全 文 进行 标 引 ,这 样 大 大 提高 了 检 全 率 ,只 要 是 搜索 引擎 搜集 到 
的 网 页 ,通过 全 文 检索 都 能 检索 得 到 。 因 此 对 于 谷歌 和 百度 为 代表 的 搜索 引擎 ,用 户 就 可 
以 用 同一 检索 词 所 搜集 的 网 页 数量 来 评价 搜索 引擎 之 间 的 检索 优 劣 。 但 是 全 文 搜索 引擎 
致命 的 缺陷 就 是 检索 的 相关 度 不 高 ,许多 与 主题 无 关 的 词 被 当做 关键 词 检索 到 。 另 外 随 
着 网 页 数量 的 增多 , 越 来 越 多 的 不 相关 信息 被 检索 到 ,真正 与 主题 相关 的 信息 却 被 深 埋 在 
信息 海洋 之 中 。 

(3) 元 搜索 引擎 。 元 搜索 引擎 不 是 一 种 有 自己 独立 的 结构 或 者 特殊 技术 的 搜索 引 
擎 , 它 是 在 检索 时 通过 对 其 他 独立 的 搜索 引擎 进行 调用 ,并 对 搜索 结果 进行 整合 和 优化 的 
搜索 引擎 。 元 搜索 引擎 避免 了 用 户 在 检索 时 频繁 更 换 搜 索引 擎 以 期 达到 最 相关 的 搜索 结 
果 的 需求 ,用 户 不 需要 来 回 用 相同 的 检索 词 在 不 同 的 搜索 引擎 之 间 查 找 比较 ,元 搜索 引擎 
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就 可 以 对 各 个 搜索 引擎 进行 检索 ,并 将 结果 提供 给 用 户 。 元 搜索 引擎 可 以 根据 用 户 的 检 
索 提 问 ,可 以 指定 检索 的 顺序 ,控制 检索 时 间 , 合 理 规范 和 整合 检索 结果 ,同时 ,也 会 自动 
处 理 检 索 过 程 中 的 重复 、 相 同 与 雷同 结果 ,以 统一 界面 人 性 化 显示 检索 结果 。 元 搜索 引擎 
没有 建立 独立 的 索引 数据 库 , 它 只 是 一 个 对 多 个 搜索 引擎 进行 综合 提问 的 检索 接口 。 

(4) 集合 式 搜索 引擎 。 集 合式 搜索 引擎 即将 许多 搜索 引擎 整合 在 一 个 单独 的 页 面 
上 ,用 户 可 以 选择 一 个 或 者 多 个 搜索 引擎 进行 检索 。 当 用 户 选择 完 搜索 引擎 之 后 ,多 个 搜 
索引 擎 就 同时 开始 检索 ,并 将 结果 呈现 给 用 户 。 集 合式 搜索 引擎 不 能 算 做 是 真正 的 搜索 
引擎 , 它 只 提供 一 个 有 多 个 搜索 引擎 检索 的 界面 ,方便 了 用 户 选 择 搜索 引擎 。 

(5) 垂直 搜索 引擎 。 垂 直 搜索 引擎 也 称 做 主题 搜索 引擎 或 者 专题 搜索 引擎 。 它 是 对 
网 页 库 中 的 某 类 专门 的 信息 进行 一 次 整合 ,只 关注 某 一 领域 或 者 某 地 域 的 信息 ,对 这 些 信 
息 存 储 和 索引 之 后 ,用 户 就 可 以 检索 只 涉及 这 一 领域 的 信息 。 垂 直 搜索 引擎 与 通用 搜索 
引擎 的 最 大 区 别 就 是 :通用 搜索 引擎 是 面向 所 有 用 户 的 ,而 垂直 搜索 引擎 是 面向 某 一 领域 
的 用 户 的。 生活 休闲 类 搜索 引擎 是 在 2006 年 之 后 逐渐 兴起 的 一 类 垂直 搜索 引擎 , 它 主 要 
搜集 某 个 地 域内 生活 休闲 类 信息 ,例如 ,酒店 .道路 公交、 商店 .景点 .娱乐 .餐饮 等 信息 ， 
并 按照 用 户 所 需 地 域 自动 将 当地 的 生活 信息 提供 给 用 户 , 极 大 地 方便 了 用 户 的 出 行 和 
旅游 。 


10.1.3 智能 搜索 引擎 基本 类 型 

智能 搜索 引擎 与 传统 搜索 引擎 的 结构 原理 有 一 定 的 区 别 , 大 部 分 智能 搜索 引擎 是 在 
传统 搜索 引擎 基本 结构 的 基础 上 ,增加 了 相关 技术 或 者 相关 系统 优化 原理 而 形成 的 综合 
检索 系统 。 从 信息 的 搜集 到 信息 的 组 织 与 索引 以 及 信息 的 检索 与 用 户 接口 ,智能 搜索 引 
擎 在 不 断 优 化 传统 搜索 引擎 的 各 个 方面 。 按 照 不 同 的 分 类 ,智能 搜索 引擎 的 结构 也 不 尽 
相同 ,原理 也 有 所 差异 。 根 据 智能 搜索 引擎 的 分 类 和 采用 的 相关 技术 ,智能 搜索 引擎 所 呈 
现 的 特征 也 不 尽 相同 。 

1. 基于 本 体 的 智能 搜索 引擎 

它 设 计 的 根本 目的 就 是 为 了 提高 搜索 引擎 的 准确 性 .语义 性 .个 性 化 ,同时 利用 智能 
化 技术 对 搜索 引擎 的 处 理 过 程 进行 优化 。 基 于 本 体 的 智能 搜索 引擎 一 般 的 信息 处 理 过 程 
主要 如 下 :用 户 首先 通过 用 户 界面 提出 检索 请 求 ,检索 器 接受 检索 请 求 ; 然 后 本 体 编辑 器 
对 检索 请 求 的 格式 进行 规范 ,以 符合 本 体 的 要 求 ;接着 将 规范 的 请 求 格 式 提交 给 推理 机 ， 
推理 机 依靠 本 体 库 的 知识 进行 推理 ,判断 和 语义 分 析 并 最 终 得 到 准确 的 语义 概念 ;最 后 利 
用 准确 的 语义 概念 与 用 户 偏好 库 同 本 体 库 中 的 概念 与 知识 进行 匹配 ,输出 检索 结果 。 基 
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于 本 体 的 智能 搜索 引擎 主要 结构 模块 有 用 户 接口 模块 .搜索 模块 .检索 模块 ,本体 编辑 器 
模块 、 推 理 机 、 本 体 库 和 用 户 偏好 库 , 如 图 10-2 所 示 。 


用 户 编辑 器 


图 10-2 智能 搜索 引擎 模块 结构 


(1) 用 户 接口 模块 是 搜索 引擎 与 用 户 直接 接触 的 模块 ,用 户 通过 输入 相关 关键 词 或 
者 相关 概念 来 进行 检索 。 用 户 不 仅 可 以 使 用 主题 和 关键 词 ,如 “X xX X 大 学 ”“X XX 市 
政府 ,也 可 以 输入 概念 ,如 "番茄 " “计算 机 ”等 进行 检索 。 当 然 , 用 户 也 可 直接 输入 自然 
语言 或 者 直接 输入 问题 进行 检索 。 

(2) 搜索 模块 是 传统 搜索 引擎 的 重要 组 成 部 分 ,同时 也 是 智能 搜索 引擎 的 重要 组 成 
部 分 。 但 基于 本 体 的 智能 搜索 引擎 的 搜索 模块 是 经 过 本 体 编辑 器 编辑 过 的 检索 请 求 , 有 
针对 性 地 对 相关 网 站 进行 信息 搜集 ,由 于 搜索 器 只 对 符合 领域 本 体 的 文档 进行 搜集 ,这 样 
很 大 程度 上 提高 了 信息 相关 度 。 同 时 ,搜索 器 还 参照 用 户 偏好 库 的 记录 对 相关 信息 进行 
筛选 ,能 给 用 户 提供 更 加 准确 的 信息 。 

(3) 检索 模块 首先 要 接受 用 户 的 检索 请 求 , 检 索 模 块 按照 本 体 要 求 , 将 用 户 请 求 交 给 
本 体 编辑 器 进行 编辑 ,并 将 其 转换 成 规定 的 格式 提交 给 推理 机 。 推 理 机 经 过 相关 推理 ,得 
到 用 户 请 求 的 相关 本 体 ,检索 模块 按照 本 体 对 数据 库 中 的 信息 进行 检索 ,查找 匹配 概念 ， 
最 后 将 匹配 结果 再 提交 给 用 户 界 面 。 检 索 模块 还 有 一 个 重要 的 作用 就 是 将 用 户 请 求 提交 
给 用 户 偏好 库 , 让 用 户 偏好 库 将 信息 记录 下 来 ,这 样 可 以 及 时 更 新 用 户 偏 好 库 , 以 供 下 次 
方便 查找 。 

(4) 本 体 编辑 器 是 基于 本 体 的 智能 搜索 引擎 特色 模块 之 一 ,由 于 本 体 编辑 器 能 将 自 
然 语 言 和 概念 进行 编辑 ,有 利于 对 用 户 请 求 的 规范 化 处 理 , 使 检索 请 求 更 加 准确 ,同时 ,本 
体 编辑 器 要 结合 本 体 库 中 的 本 体 , 对 用 户 偏好 库 中 的 信息 进行 规范 ,转换 成 本 体 所 需要 的 
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表达 形式 ,使 用 户 偏好 库 中 的 信息 更 加 准确 。 
(5) 推理 机 是 对 经 过 本 体 编辑 器 编辑 后 的 请 求 信息 进行 推理 和 判断 ,推理 和 判断 的 
过 程 主要 借鉴 专家 学 者 在 思考 问题 时 的 推理 和 判断 过 程 。 经 过 推理 机 的 推理 和 判断 ,再 
根据 用 户 偏好 库 的 用 户 个 性 特征 ,最 终 得 到 用 户 真正 所 需 的 信息 ,使 信息 检索 的 结果 更 加 
准确 。 

(6) 本 体 库 是 对 领域 内 的 相关 知识 按照 本 体内 部 的 相关 概念 和 规则 进行 规范 化 处 
理 , 使 其 在 语义 上 准确 地 表达 信息 的 概念 及 概念 间 的 属性 关系 的 数据 库 。 本 体 库 不 仅 表 
达 领 域 信息 的 本 身 ,同时 也 对 领域 信息 资源 的 关系 进行 描述 ,进而 形成 知识 网 络 。 本 体 库 
的 建设 是 由 领域 专家 和 本 体 专家 共同 设计 和 完成 的 ,通过 专家 对 领域 知识 进行 总 结 和 归 
纳 , 并 构建 本 体 之 间 的 关系 ,最 终 形成 本 体 库 。 

(7) 用 户 偏好 库 是 用 来 存储 用 户 经 常 查看 的 或 者 用 户 感 兴趣 的 信息 数据 库 。 用 户 每 
次 利用 搜索 引擎 搜集 信息 ,用 户 偏好 库 都 对 其 进行 记录 和 存储 ,并 经 过 本 体 编辑 器 进行 规 
范 , 当 用 户 下 次 使 用 搜索 引 eo 搜索 引擎 自动 访问 用 户 偏好 库 ,将 用 
户 感 兴趣 的 信息 主动 提供 给 用 

2. dit 

基于 知识 库 的 智能 搜索 引擎 是 智能 搜索 引擎 中 的 一 种 , 它 利用 知识 库 系 统 强大 的 理 
解 能 力 和 推导 能 力 并 运用 人 工 智 能 技术 ,提高 搜 
索引 擎 的 智能 性 。 它 对 知识 有 一 定 的 理解 与 处 理 
能 力 , 可 以 实现 同义词 聚 类 、 概 念 搜索 .机 器 翻译 
等 。 主 要 模块 结构 有 知识 库 系 统 、 智 能 搜索 器 、 索 
引 器 、 检 索 器 、 结 果 反 馈 模 块 ,如 图 10-3 所 示 。 

(1) 所 谓 知识 ,一 般 是 经 过 人 类 利用 归纳 或 
者 总 结 等 方式 加 工整 理 而 成 的 ,是 人 们 对 现实 世 
界 客观 的 、 正 确 的 认识 ,这 些 认识 对 人 类 的 发 展 具 
有 重要 的 指导 和 引导 作用 。 知 识 库 系 统 是 利用 数 
据 库存 储 知识 ,并 设计 相关 算法 按照 一 定 的 规则 图 10-3 基于 知识 库 系统 的 智能 
对 知识 进行 推理 ,以 便 让 机 器 更 好 地 理解 词语 的 搜索 引擎 模块 结构 
意思 ,提高 计算 机 的 理解 能 力 。 知 识 库 中 存储 的 
知识 是 程序 在 推理 和 解释 的 过 程 中 所 需要 的 知识 ,而 不 是 向 搜索 引擎 使 用 者 提供 的 知识 。 
知识 库 系 统 通 过 对 用 户 输入 的 检索 请 求 进行 分 析 和 推理 ,有 助 于 检索 系统 理解 用 户 的 真 
正 用 途 ,使 用 户 能 获得 高 相关 度 的 信息 。 知 识 库 系 统一 般 由 知识 库 、 推 理 机 组 成 。 推 理 机 
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负责 对 搜索 请 求 进行 分 析 和 逮 辑 推理 , 它 是 知识 库 的 核心 组 成 部 分 , 它 利 用 推理 规则 、 知 
识 、 专 家 词典 等 为 基础 ,模仿 人 类 推理 问题 的 相关 方法 ,最 后 得 出 相关 结论 。 知 识 库 中 存 
储 的 知识 大 部 分 都 是 分 层 存 储 的 ,并 以 结构 化 的 方式 分 布 存储 ,这 样 有 利于 知识 的 发 现 和 
利用 。 

(2) 信息 检索 主要 的 功能 是 进行 检索 的 预 处 理 , 按 照 用 户 请 求 进 行 检索 并 对 结果 返 
回 。 为 了 使 搜索 引擎 能 理解 用 户 的 检索 请 求 ,必须 对 用 户 的 查询 词 进行 预 处 理 , 搜 索引 擎 
利用 知识 库 系统 的 知识 ,对 用 户 的 请 求 规范 化 和 精确 化 ,进而 得 到 用 户 请 求 的 相关 概念 和 
语义 概念 。 同 时 ,搜索 引擎 还 利用 知识 库 系统 ,对 查询 的 概念 进行 扩充 和 联想 ,使 得 检索 
结果 能 更 加 全 面 。 查 询 预 处 理 系统 还 将 概念 词 返 回 给 用 户 , 以 供用 户 选择 更 准确 的 检索 
词 。 然 后 ,检索 系统 根据 检索 词 从 数据 库 中 搜索 相关 信息 ,呈现 给 用 户 。 

(3) 索引 器 主要 是 用 于 自动 标 引 和 自动 信息 分 类 。 知 识 库 的 重要 组 成 部 分 就 是 概 
念 , 索 引 器 依据 知识 库 系 统 中 的 概念 及 概念 间 的 关系 进行 标 引 和 分 类 ,索引 器 主要 通过 与 
知识 库 中 相关 概念 进行 比较 ,判断 信息 中 的 相关 词汇 是 否 与 知识 库 中 的 概念 相 一 致 ,通过 
匹配 判断 来 对 文档 进行 标 引 。 

(4) 智能 搜索 引擎 的 网 络 蜘蛛 是 智能 化 的 网 络 蜘蛛 , 它 主 要 依据 知识 库 中 的 概念 以 
及 语义 对 相关 的 网 络 进行 遍历 ,并 将 遍历 结果 提交 给 数据 库 。 

(5) 结果 反馈 主要 是 检索 器 将 搜索 结果 提供 给 用 户 , 同 时 需要 用 户 对 相关 结果 进行 
评价 ,以 供 搜索 引擎 进行 统计 和 分 析 。 当 搜索 引擎 对 大 量 的 反馈 结果 进行 统计 和 分 析 之 
后 ,就 能 自动 识别 用 户 的 检索 请 求 ,或 者 主动 提供 相关 词汇 供用 户 选 择 。 

3. 基于 语义 关联 的 智能 搜索 引擎 

基于 语义 关联 的 智能 搜索 引擎 是 研究 比较 多 的 智能 搜索 引擎 之 一 , 它 利用 语义 关联 
技术 对 搜索 引擎 进行 设计 和 构造 ,以 提高 搜索 引擎 的 智能 化 。 领 域 本 体 是 对 某 一 学 科 内 
的 概念 明确 的 规范 化 说 明 。 本 体 不 仅 反 映 领域 内 的 概念 ,同时 能 表达 概念 之 间 的 语义 关 
系 。 所 以 领域 内 的 语义 关系 一 般 通 过 本 体 来 表示 ,通过 本 体 并 根据 不 同 的 搜索 算法 和 匹 
配 规 则 在 文本 中 查找 到 相似 概念 ,确定 相关 词汇 ,以 此 来 提高 搜索 引擎 对 文本 概念 层次 上 
的 理解 能 力 。 基 于 语义 关联 的 智能 搜索 引擎 是 通过 预先 定义 学 科 本 体 即 确定 学 科 领 域 概 
念 来 实现 对 整个 搜索 过 程 进行 改造 ,以 达到 真正 理解 用 户 的 请 求 。 其 工作 步骤 如 下 : 
加 用 户 使 用 语义 关联 编辑 器 对 学 科 的 相关 概念 进行 创建 和 编辑 ,用 户 还 可 以 增加 和 删除 
预定 义 的 关联 词 族 。 回 通过 对 学 科 概 念 的 编辑 确定 本 体 的 主题 。@@ 利 用 预定 义 的 本 体 词 
族 抽取 Web 文档 的 相关 主题 。@ 将 抽取 到 的 主题 词 进行 保存 ,一 般 将 主题 词 保存 为 属性 
索引 。@@ 用 户 利用 检索 系统 接口 对 所 需 信息 进行 检索 ,输入 检索 词 ,获取 检索 结果 。 
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基于 语义 关联 的 智能 搜索 引擎 不 仅 提高 了 搜索 引擎 的 信息 检索 准确 性 ,同时 也 提高 
了 资源 间 的 关联 程度 和 资源 的 利用 深度 。 基 于 语义 关联 的 智能 搜索 引擎 的 主要 模块 为 : 
概念 词 表 定 义 模 块 . 概 念 词 表 导 出 模块 .概念 索引 模块 .概念 检索 模块 .概念 导航 模块 、 结 
果 反 馈 模 块 等 。 

(1) 概念 词 表 定 义 模块 。 通 过 概念 词 表 编辑 器 ,用 户 可 以 自 定义 概念 词汇 .建立 词 汇 
间 的 关联 。 概 念 词 表 的 定义 首先 要 进行 核心 概念 词 的 定义 ,核心 概念 词 是 相关 词 族 的 标 
识 词汇 ,只 有 对 核心 概念 词 定义 以 后 ,才能 定义 其 从 属 词汇 和 概念 间 的 关联 。 概 念 词 表 模 
块 输入 的 是 用 户 希 望 定 义 的 概念 系统 的 相关 词汇 ,输出 的 是 经 过 定义 后 的 核心 概念 词 . 从 
属 概念 词汇 和 概念 关系 。 

(2) 概念 词 表 导出 模块 。 它 将 用 户 定 义 的 概念 词 表 以 结构 化 的 格式 导出 ,以 供 搜索 
引擎 模块 在 检索 时 使 用 ,其 根本 的 作用 是 将 用 户 自 定义 的 概念 词汇 传递 给 搜索 引擎 。 

(3) 概念 索引 模块 。 它 通过 对 Web 文本 进行 概念 提取 ,并 将 提取 后 的 概念 词 建立 成 
索引 文件 ,然后 建立 概念 索引 数据 库 。 概 念 索 引 模块 主要 有 以 下 工作 :首先 将 输入 的 文本 
拆 分 为 单个 词组 或 词汇 ,并 根据 概念 词 表 中 的 概念 进行 分 类 ,使 拆 分 的 词汇 尽 可 能 地 表达 
文本 的 内 容 。 接 着 将 拆 分 好 的 词汇 与 概念 词 表 进行 匹配 ,并 将 匹配 成 功 的 概念 词汇 输出 。 
最 后 ,根据 输出 的 概念 词汇 ,生成 概念 索引 文件 ,概念 索引 包括 核心 概念 词 串 ,文件 位 置 链 
接 和 相关 描述 等 内 容 。 概 念 索 引 能 最 大 限度 地 反映 文本 的 内 容 ,提高 文本 资源 的 信息 利 
用 程度 。 

(4) 概念 检索 模块 。 它 是 对 概念 索引 进行 遍历 和 搜索 的 模块 。 用 户 通过 概念 导航 模 
块 、 概 念 范围 收缩 及 关键 词 检索 来 实现 概念 检索 。 它 还 可 以 对 用 户 输入 的 词语 进行 规范 
化 处 理 ,并 将 处 理 结 果 返 回 给 用 户 , 以 供用 户 修改 和 选择 检索 词 。 概 念 检索 模块 还 要 将 用 
户 规范 化 的 检索 词 与 概念 索引 进行 匹配 ,并 将 匹配 结果 如 :文件 链接 ,文本 概念 相关 词汇 、 
文本 概念 词 .原始 词 等 传递 给 用 户 。 

(5) 概念 导航 模块 。 它 将 概念 分 层级 展示 给 用 户 ,用 户 可 以 通过 预先 查看 概念 目录 
的 内 容 选择 自己 需要 的 节点 直接 查询 。 这 种 形式 有 利于 用 户 方便 快捷 地 检索 ,是 重要 的 
辅助 子 系统 。 

(6) 结果 反馈 模块 。 它 是 将 用 户 查询 的 结果 以 及 用 户 选择 的 结果 进行 记录 ,通过 记 
录 来 反映 搜索 结果 与 用 户 需 求 是 否 相关 ,以 此 来 提高 搜索 引擎 的 检索 结果 相关 性 ,同时 ， 
结果 反馈 也 有 利于 搜索 引擎 掌握 用 户 的 检索 兴趣 与 检索 习惯 ,对 搜索 引擎 的 个 性 化 检索 
有 很 大 帮助 。 
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10.2 搜索 引擎 主要 支撑 技术 


搜索 引擎 技术 原理 的 种 类 较 多 , 主要 因 其 应 用 的 信息 采集 算法 原理 和 索引 技术 的 不 
同 而 不 同 。 目 前 ,搜索 引擎 的 主要 支撑 技术 有 分 词 技术 、 网 络 蜘蛛 .索引 技术 、 词 频 相 关 指 
数 、 自 动 推理 技术 本 体 知识 系统 、 专 家 系统 等 类 型 。 


10.2.1 分 词 技术 

分 词 技术 是 中 文 搜索 引擎 特有 的 一 种 技术 ,评价 中 文 搜索 引擎 的 优 劣 的 一 个 重要 指 
标 就 是 分 词 技术 。 在 汉语 的 语法 和 句子 中 ,词汇 以 字 为 单位 ,两 个 字 或 者 多 个 字 构 成 一 个 
词 , 词 与 词 之 间 不 像 英文 由 空格 分 开 , 各 个 词 之 间 没 有 空格 ,几乎 无 法 将 词语 分 别 开 来 。 
因此 需要 分 词 ,就 是 将 由 多 个 连续 的 字 组 成 的 关键 词 或 句子 重新 按 指定 的 算法 分 割 成 若 
干 个 有 独立 含义 的 字 或 词 。 中 文 词汇 的 组 合 非常 灵活 多 变 ,组 合 后 的 词语 意思 也 不 尽 相 
同 ,很 容易 对 文字 的 理解 产生 歧义 。 如 ,对 关键 词 "北京 的 大 学 ”, 可 以 切 分 为 "北京 /的 /大 
学 ”, 由 于 “的 ”属于 助词 ,往往 又 将 其 切 分 为 "北京 大 学 ”。 由 于 切 分 方法 的 不 同 ,可 能 造成 
几 种 不 同 的 切 分 结果 ,返回 的 查询 结果 也 会 旬 然 不 同 。 因 此 ,分 词 的 准确 性 将 直接 决定 搜 
索引 擎 的 查询 结果 。 目 前 中 文 分 词 的 算法 主要 有 三 大 类 : 基于 字典 的 分 词 技术 .基于 统 
计 的 分 词 技术 和 基于 规则 的 分 词 技 术 。 其 中 基于 字典 的 中 文 分 词 技术 占 主导 地 位 。 基 于 
字典 的 算法 主要 有 两 种 : 正 向 最 大 匹配 法 和 逆向 最 大 匹配 法 。 

(1) 正 向 最 大 匹配 法 。 正 向 最 大 匹配 法 就 是 将 段落 分 成 句子 ,将 句子 分 成 词语 ,即将 
大 化 小 ,将 小 短语 进行 分 解 。 它 的 分 词 方法 是 :将 分 词 词典 中 最 长 的 词语 取出 来 ,我 们 假 
设 其 长 度 为 工 , 即 该 词语 包含 工 个 汉字 ,然后 从 文章 中 第 一 个 字 开 始 , 取 前 工 个 汉字 与 词 
典 相配 ,如 果 匹 配 成 功 , 则 这 个 词 就 被 切 分 开 来 ,作为 一 个 词语 。 如 果 匹 配 不 成 功 , 则 从 下 
一 个 汉字 开始 ,重新 匹配 全 文 。 如 果 按 此 方法 匹配 完成 以 后 , 则 将 工 个 汉字 去 掉 最 后 一 个 
字 , 即 现在 要 匹配 词典 中 工 一 1 个 词 ,按照 前 面 的 方法 ,以 此 类 推 ,直到 将 所 有 的 词语 切 分 
出 来 。 最 终 , 将 整 篇 文章 或 者 整个 段落 切 分 完成 。 

(2) 道 向 最 大 匹配 法 。 道 向 最 大 匹配 法 和 正 向 最 大 匹配 法 类 似 , 只 是 在 匹配 的 时 候 
是 从 信息 最 未 端 开始 匹配 ,匹配 结束 后 去 掉 的 不 是 最 后 面 的 字 , 而 是 最 前 面 的 字 , 其 使 用 
的 分 词 词典 也 与 正 向 最 大 匹配 法 有 所 不 同 。 逆 向 最 大 匹配 法 是 从 被 匹配 信息 的 最 后 面 开 
台 扫 描 匹 配 , 即 从 末端 最 后 一 个 词 开 始 。 取 词典 中 工 长 度 汉 字 的 词语 开始 匹配 , 若 匹配 成 
功 则 作为 切 分 词 ,车 匹配 不 成 功 , 则 去 掉 工 长度 汉 字 的 最 前 面 的 词 即 工 一 1 长 度 的 词 继续 


由 
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匹配 。 从 去 掉 词 的 前 后 可 以 看 出 ,逆向 最 大 匹配 法 与 正 向 最 大 匹配 法 所 使 用 的 词典 也 是 
不 相同 的 。 它 使 用 的 分 词 词典 是 逆序 词典 ,其 中 的 每 个 词 条 都 按 逆序 存放 。 在 实际 处 理 
时 ,将 文档 按照 一 定 的 规则 进行 倒 排 处 理 ,生成 逆序 文档 ,然后 根据 逆序 词典 ,对 逆序 文档 
用 正 向 最 大 匹配 法 处 理 。 根 据 数据 显示 ,逆向 最 大 匹配 法 相 比 正 向 最 大 匹配 法 效果 要 好 
得 多 ,其 误差 也 比较 小 。 由 于 最 大 匹配 法 是 一 种 基于 分 词 词典 的 机 械 分 词法 ,使 分 词 结 果 
不 能 很 好 地 体现 文档 的 语义 特征 ,另外 , 它 必须 依赖 词典 进行 分 词 ,所 以 在 实际 使 用 时 , 难 
免 会 造成 一 些 分 词 错误 。 一 般 情 况 下 ,我们 在 分 词 的 时 候 都 采用 正 向 匹配 法 和 逆向 匹配 
法 相 结合 的 方法 ,通过 两 者 的 结合 ,可 以 达到 理想 的 结果 。 


10.2.2 网 络 蜘蛛 

网 络 蜂 蛛 又 称 之 为 Spider 或 者 Robot, 其 具有 独立 的 工作 能 力 与 决策 能 力 , 它 是 通过 
网 页 的 链接 地 址 来 寻找 网 页 的 , 它 在 网 络 上 查找 相关 信息 ,并 将 搜集 到 的 信息 返回 给 服务 
器 。 网 络 蜂 蛛 的 本 质 是 人 造 的 一 段 程序 代码 ,由 于 网 络 蜂 蛛 的 目的 就 是 永 不 停 区 地 抓 取 
网 络 资源 ,就 像 我 们 常常 见 到 的 蜂 蛛 一 样 , 在 自己 编织 的 网 上 息 来 仆 去 ,因此 我 们 形象 地 
将 之 称 为 “ 蜂 蛛 ”或 “人 息 虫 ”"。 网 络 蜂 蛛 从 网 站 某 一 个 页 面 的 首页 开始 , 读 取 网 页 的 内 容 , 找 
到 在 网 页 中 的 其 他 链接 地 址 ,然后 通过 这 些 链 接地 址 寻找 下 一 个 网 页 ,这 样 一 直 循 环 下 
去 ,直到 把 这 个 网 站 所 有 的 网 页 都 抓 取 完 为 止 。 如 果 把 整个 互联 网 当成 一 个 网 站 ,那么 网 
络 蜂 蛛 就 可 以 用 这 个 原理 把 互联 网 上 所 有 的 网 页 都 抓 取 下 来 。 

网 络 蜘蛛 有 很 多 种 ,不同 的 搜索 引擎 一 般 都 会 有 其 专门 的 网 络 蜘蛛 程序 。 它 们 一 般 
由 不 同 的 脚本 程序 编制 而 成 ,可 以 利用 不 同 的 编程 语言 来 设计 网 络 蜘蛛 。 


10.2.3 索引 技术 

索引 即 我 们 通常 所 说 的 按照 一 定 的 顺序 将 索引 项 目 进行 排列 的 一 种 方法 。 搜 索引 擎 
的 索引 技术 是 搜索 引擎 的 一 项 重要 技术 , 它 关 系 到 搜索 引擎 结构 的 构造 以 及 检索 结果 相 
关 度 的 高 低 排序 。 搜 索引 擎 一 般 按 词 频 排列 ,特别 是 中 文 搜索 引擎 ,由 于 常用 的 无 实际 意 
义 的 助词 出 现 的 次 数 比较 多 ,但 与 主题 又 不 相关 ,所 以 搜索 引擎 往往 使 用 倒 排 索引 。 倒 排 
索引 常 被 称 为 反 向 索引 , 它 是 一 种 索引 方法 ,一 般 用 于 全 文 检索 时 ,指引 词 或 字 在 数据 库 
中 存储 的 位 置 ,通过 这 种 一 一 对 应 的 关系 可 以 很 快 查找 到 相关 主题 词 的 位 置 。 倒 排 索引 
通常 有 两 种 形式 :一 种 是 记录 的 水 平反 向 索引 ,用 于 引用 词语 的 列表 ; 另 一 种 是 单词 的 水 
平反 向 索引 , 它 包 含 所 有 单词 在 记录 中 的 位 置 。 单 词 的 反 向 索引 其 兼容 性 比较 好 ,可 以 提 
供 短语 搜索 ,可 以 更 好 地 反映 记录 的 主题 ,但 单词 记录 数量 较 大 ,需要 的 存储 空间 也 比较 
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大 ,所 以 需要 的 资源 耗费 也 比较 多 。 后 者 的 形式 提供 了 更 多 的 兼容 性 ,但 是 需要 更 多 的 时 
间 和 空间 来 创建 。 


10.2.4 词 频 相 关 指 数 

词 频 指 的 是 在 一 篇 文档 或 者 记录 中 某 个 词语 出 现 的 总 次 数 。 某 一 词语 出 现 的 次 数 越 
多 ,代表 该 文档 或 者 记录 与 该 词语 的 主题 越 相 关 。 通 过 对 词 频 的 统计 可 以 确定 文档 或 者 
记录 的 主题 词语 。 但 是 只 靠 单一 的 词 频 累 加 方案 往往 又 不 能 很 好 地 反映 主题 ,因此 搜索 
引 敬 要 利用 一 定 方法 来 规范 词 频 , 以 利于 更 加 准确 地 找到 主题 词语 。 单 文本 词 频 指数 和 
道 文本 频率 指数 是 文档 资源 的 两 个 重要 指数 ,它们 是 搜索 引擎 用 来 进行 词语 加 权 的 两 种 
重要 方法 ,通过 对 单 文本 词 频 和 逆 文 本 词 频 的 运算 可 以 排除 经 常用 到 的 无 实际 意义 的 词 
汇 ,能 将 高 频 词汇 与 主题 词汇 进行 高 相关 度 匹 配 。 


10.2.5 自动 推理 技术 

推理 是 指 从 已 知 的 判断 和 条 件 下 ,推论 出 新 的 判断 或 者 新 结论 的 一 种 馆 辑 思维 形式 。 
推理 是 人 们 解决 问题 的 一 种 常用 方法 , 它 是 依靠 人 们 对 相关 知识 的 掌握 ,并 根据 事物 之 间 
的 联系 来 进行 处 理 问 题 的 一 种 方法 。 自 动 推理 是 人 们 利用 计算 机 模仿 人 们 推理 问题 的 过 
程 与 步骤 而 自动 得 到 解决 问题 的 一 种 技术 。 自 动 推 理 主要 由 程序 推导 、 程 序 结果 证 明 、 专 
家 系统 等 相关 部 分 组 成 。 

程序 推导 主要 涉及 计算 机 算法 ,程序 设计 者 根据 人 们 推理 问题 的 过 程 ,设计 出 相关 算 
法 来 模仿 人 类 的 推导 过 程 ,并 用 机 器 语言 实现 推理 过 程 ,这 样 计算 机 就 能 根据 相关 的 前 提 
条 件 自动 进行 推理 。 

程序 结果 证 明 就 是 人 们 证 明定 理 的 过 程 。 通 过 一 定 的 程序 和 算法 加 以 形式 化 ,使 计 
算 机 能 自动 实现 对 推理 结果 的 证 明 , 这 样 有 利于 推理 结果 的 精确 性 ,防止 错误 的 推理 和 不 
夺 合 常识 的 推理 的 出 现 。 

专家 系统 是 对 推理 进行 控制 和 判断 的 系统 ,通过 专家 系统 存储 的 知识 和 人 逻辑 判断 能 
让 推理 过 程 更 加 智能 化 ,推理 结果 更 加 合理 和 准确 。 

智能 搜索 引擎 的 自动 推理 主要 依靠 本 体 库 或 知识 库 中 的 本 体 或 知识 进行 推理 ,通过 
知识 的 概念 及 概念 间 的 关系 理解 ,并 采用 相关 算法 自动 推理 出 用 户 检索 请 求 的 相关 概念 
和 联想 词 ,提高 搜索 的 相关 度 。 自 动 推理 还 结合 用 户 相关 反馈 或 者 用 户 偏好 库 中 的 信息 
进行 推理 ,以 便 准确 地 理解 用 户 的 检索 请 求 。 
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10.2.6 本 体 知识 系统 

本 体 本 身 是 一 个 哲学 概念 ,后 来 被 计算 机 科学 引入 ,用 来 将 领域 内 的 各 种 概念 及 概念 
之 间 的 关系 准确 地 ,形式 化 地 表现 出 来 。 通 过 这 种 表示 可 以 准确 地 获得 概念 之 间 的 语义 
关系 。 关 于 本 体 的 定义 有 许多 种 ,但 被 人 们 广泛 接受 的 是 : 本 体 是 概念 化 的 明确 的 规范 
说 明 。 概 念 化 主要 是 对 客观 事物 的 抽象 说 明 ,其 表达 的 基本 意义 独立 于 具体 的 外 部 环境 。 
明确 化 要 求 概念 必须 被 准确 地 定义 ,并 尽 可 能 将 概念 规范 地 表示 出 来 。 本 体 所 反映 的 知 
识 是 大 家 共同 认可 的 ,是 领域 内 专家 和 普通 用 户 广 泛 认 可 的 概念 集合 。 本 体能 表示 领域 
内 的 概念 及 概念 之 间 的 关系 ,本 体能 对 用 户 的 搜索 请 求 从 语义 方面 去 理解 ,消除 歧义 现 
象 ,所 以 通过 本 体能 够 准确 地 反映 用 户 的 真实 信息 需求 。 

知识 系统 是 20 世纪 70 年 代 被 提出 来 的 一 种 用 来 存储 知识 的 系统 。 知 识 系统 与 数据 
库 系 统 有 很 大 的 不 同 , 数 据 库 系统 存储 的 主要 是 无 序 的 数据 或 者 是 按照 一 定 的 规则 排序 
的 数据 ,这 些 数 据 的 语义 和 它们 之 间 的 关系 都 不 能 被 表示 出 来 。 知 识 系统 存储 的 往往 是 
领域 的 相关 知识 ,并 利用 知识 之 间 的 关系 建立 一 定 的 体系 结构 ,形成 知识 系统 。 知 识 系统 
不 仅仅 存储 知识 ,还 可 以 根据 知识 进行 相关 的 推理 和 演绎 ,具备 一 定 的 智能 化 性 能 。 人 们 
利用 知识 库 系统 可 以 来 进行 问题 的 求解 ,提高 计算 机 的 理解 能 力 , 使 计算 机 能 像 人 类 一 样 
思考 和 解决 问题 ,而 不 是 简单 的 机 器 翻译 与 理解 。 

由 于 本 体 可 以 有 效 地 表达 和 查询 知识 ,可 以 消除 同义词 之 间 的 语义 歧义 ,还 可 以 支持 
语义 发 现 , 自 动 进行 语义 化 的 匹配 和 组 合 . 因 此 可 以 利用 本 体 来 构建 知识 系统 。 本 体 知 识 
系统 提高 了 知识 的 利用 深度 ,有 利于 对 隐 性 知识 的 发 现 和 获取 ,有 利于 知识 的 共享 和 创 
新 。 本 体 知识 系统 主要 有 以 下 功能 :能 识别 多 种 表示 语言 形式 和 存储 形式 ;能 进行 本 体 学 
习 、 本 体 映 射 、 本 体 自动 合并 等 相关 操作 ;能 支持 本 体 的 可 扩展 性 和 一 致 性 ,对 本 体 的 多 个 
版 本 进行 兼容 化 管理 。 

由 于 本 体 知识 系统 具有 和 较 强 的 语义 理解 能 力 和 自动 推理 能 力 , 对 信息 的 处 理 和 利用 
超出 了 数据 库 系 统 , 能 从 知识 的 角度 来 管理 和 操作 信息 ,使 信息 检索 上 升 为 知识 的 检索 ， 
因此 本 体 知 识 系统 是 智能 搜索 引擎 的 一 项 重要 技术 。 智 能 搜索 引擎 通过 利用 本 体系 统 ， 
有 助 于 对 关联 词 的 理解 ,并 结合 自动 推理 技术 ,为 用 户 提供 联想 词 提 示 。 通 过 本 体 知识 系 
统 可 以 实现 对 文本 的 智能 分 词 ,提高 分 词 技术 的 水 平 ,本 体 知识 系统 还 可 以 对 用 户 的 检索 
请 求 与 检索 结果 相关 性 进行 总 结 , 获 得 词汇 的 词 频 与 用 户 请 求 之 间 的 关联 ,这 样 就 解决 了 
单单 依靠 词 频 统计 来 确定 词汇 的 相关 度 , 提 高 了 分 词 效 果 。 
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10.2.7 专家 系统 

专家 系统 事实 上 是 一 类 智能 的 计算 机 程序 系统 ,这 类 系统 关注 的 重要 内 容 就 是 专家 
的 知识 和 经 验 。 它 通过 利用 计算 机 程序 来 模仿 专家 解决 复杂 问题 的 思维 模式 和 过 程 ,使 
计算 机 达到 与 专家 同 水 平 的 解决 问题 能 力 ,以 提高 计算 机 的 智能 化 水 平 。 因 此 要 想 构 建 
一 个 专家 系统 必须 要 拥有 相关 领域 的 大 量 专家 知识 ,同时 要 能 模仿 专家 的 思维 模式 ,才能 
达到 专家 级 别 的 解决 问题 的 能 力 。 

专家 系统 作为 一 个 智能 系统 ,构建 起 来 就 如 同一 项 巨大 的 工程 一 样 ,因此 专家 系统 也 
称 做 知识 工程 。 专 家 系统 通常 由 人 机 交互 界面 .知识 获 取 、 知 识 库 、 推 理 机 、 解 释 器 、 综 合 
数据 库 组 成 。 

人 机 交互 界面 是 用 户 与 专家 系统 进行 交流 的 界面 ,用 户 通 过 人 机 交互 界面 输入 相关 
信息 和 提问 ,专家 系统 接受 用 户 的 提问 和 信息 ,并 经 过 专家 系统 的 处 理 最 终 将 结果 提供 给 
用 户 。 

知识 获取 模块 的 功能 主要 是 建立 .修改 和 扩充 知识 库 。 它 从 专家 的 头脑 中 或 者 各 种 
知识 源 那 里 获取 知识 ,并 将 其 转换 成 一 定 的 格式 存储 到 知识 库 中 。 知 识 的 获取 可 以 通过 
计算 机 自动 获取 ,也 可 以 通过 人 工 的 识别 和 分 类 进行 获取 ,知识 获取 有 利于 专家 系统 知识 
库 的 更 新 ,提高 专家 系统 解决 问题 的 能 力 。 

专家 系统 是 通过 推理 机 来 分 析 和 推理 的 ,依靠 这 种 方法 来 解决 用 户 提 出 的 问题 ,知识 
库 是 专家 系统 的 心脏 ,推理 机 是 专家 系统 的 大 脑 。 它 根据 知识 的 语义 ,按照 一 定 的 逻辑 算 
法 ,找到 相关 知识 并 提供 给 用 户 。 推 理 机 的 算法 和 程序 与 知识 库 的 内 容 是 相互 独立 的 , 推 
理 机 的 程序 与 知识 库 的 具体 内 容 无 关 , 这 样 的 好 处 是 : 如 果 知 识 库 进行 更 新 或 改动 就 不 
会 对 推理 机 的 推理 算法 和 程序 造成 影响 。 

解释 器 是 用 来 向 用 户 解释 说 明 专 家 系统 求解 问题 的 过 程 , 让 用 户 明白 专家 系统 是 如 
何 工 作 的 ,并 对 用 户 的 提问 进行 回答 。 解 释 器 提高 了 专家 系统 的 透明 性 ,能 让 用 户 明 白 专 
家 系统 正在 做 什么 和 为 什么 要 这 样 做 ,用 户 也 是 通过 解释 器 来 认识 专家 系统 的 工作 原 
理 的 。 

综合 数据 库 是 用 来 反映 专家 系统 对 用 户 请 求 的 求解 状态 集合 的 数据 库 , 也 可 以 将 综 
合 数据 库 称 为 动态 库 。 它 存放 的 是 系统 运行 过 程 中 产生 的 各 种 信息 ,包括 系统 需要 的 数 
据 源 、 用 户 请 求 .推理 的 中 间 结 果 、 推 理 过 程 等 。 综 合 数 据 库 中 由 各 种 事实 \ 命 题 和 关系 组 
成 的 状态 是 推理 机 选用 知识 的 依据 。 

将 专家 系统 应 用 到 搜索 引擎 ,提高 了 搜索 引擎 人 机 交互 功能 ,可 以 帮助 智能 搜索 引擎 
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总 结 用 户 的 兴趣 ,并 主动 将 信息 推送 给 用 户 。 依 靠 专家 系统 ,可 以 实现 用 户 的 个 性 化 搜 
索 ,建立 用 户 的 个 人 门户 。 专 家 系统 记录 用 户 的 个 人 喜好 ,并 跟踪 用 户 的 搜索 轨迹 ,建立 
符合 用 户 个 性 化 需求 的 信息 服务 平台 。 


10.3 Web 采 集 


10.3.1 Web 采集 概述 

随 着 互联 网 的 迅速 发 展 , 人 们 接触 最 多 的 信息 是 以 Web 页 面 形式 存在 的 。 我 们 面临 
一 个 信息 爆炸 、 信 息 困 扰 的 时 代 。 面 对 互联 网 上 兼 具 多 样 性 和 复杂 性 的 海量 信息 ,仅仅 依 
靠 人 工 搜集 与 整理 来 有 效 跟踪 最 新 信息 动态 显然 是 不 科学 的 和 低 效 的 ,也 不 能 满足 实际 
需要 。 于 是 人 们 开始 探索 新 的 信息 获取 方式 , Web 信息 采集 技术 应 运 而 生 。 

随 着 网 络 应 用 的 深化 和 技术 的 发 展 ,Web 正 由 以 搜索 引擎 为 主 的 单纯 检索 服务 向 着 
信息 转播 ,个 人 代理 ,个 性 化 主动 服务 等 领域 全 方位 拓展 。 作 为 这 些 服务 系统 的 重要 基础 
和 支撑 , Web 信息 采集 的 任务 也 越 来 越 艰巨 ,被 广泛 应 用 于 搜索 引擎 检索 .站 点 结构 分 
析 、 页 面 有 效 性 分 析 、Web 图 进化 内容 安 全 检测 .用 户 兴趣 挖掘 以 及 个 性 化 信息 获取 等 
多 种 服务 和 研究 当中 。Web 采集 是 从 Web 中 收集 网 页 的 过 程 , 这 些 网 页 用 于 索引 从 而 为 
搜索 引擎 芮 定 基 础 。 采 集 的 目标 是 尽 可 能 高 效 地 采集 更 多 数目 的 有 用 页 面 ,并 同时 获得 
连接 这 些 页 面 的 链接 结构 。 


10.3.2 采集 器 的 功能 与 特点 

Web 采集 器 的 功能 特点 可 以 分 为 两 类 : 一 类 是 采集 器 所 必须 提供 的 功能 特点 , 男 一 
类 是 采集 器 应 该 提供 的 功能 特点 。 

采集 器 所 必须 提供 的 功能 特点 包括 以 下 两 点 。 

(1) 鲁 棒 性 。Web 中 有 些 服务 器 会 制造 采集 器 陷阱 (spider traps) ,这 些 陷阱 服务 器 
实际 上 是 Web 页 面 的 生成 器 , 它 能 在 某 个 域 下 生成 无 数 网 页 ,从 而 使 采集 器 陷 人 到 一 个 
无 限 的 采集 循环 中 去 。 采 集 器 必须 要 能 从 这 类 陷阱 中 跳出 来 ,尽管 这 些 陷 阱 倒 不 一 定 都 

(2) 完整 性 。Web 服务 器 具有 一 些 隐 式 或 显 式 的 策略 来 控制 采集 器 访问 它们 的 频 
率 , 设 计 采 集 器 时 必须 符合 完整 性 的 访问 采集 策略 。 

采集 器 应 该 提供 的 功能 特点 包括 以 下 六 点 。 

(1) 分 布 式 。 采 集 器 应 该 可 以 在 多 机 上 分 布 式 运行 。 
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(2) 规模 可 扩展 性 。 在 增加 额外 的 机 器 和 带宽 的 情况 下 ,采集 器 的 架构 应 允许 实现 
采集 率 的 提高 。 

(3) 性 能 和 效率 。 采 集 器 应 能 够 充分 利用 不 同 的 系统 资源 ,包括 处 理 器 、 存 储 器 和 网 
络 带 宽 等 。 

(4) 质量 。 在 应 答 用 户 查询 需求 时 ,大 部 分 Web 网 页 的 质量 都 较 差 , 因 此 采集 器 应 
优先 考虑 抓 取 有 用 的 网 页 。 

(5) 新 鲜 度 。 在 很 多 应 用 中 ,采集 器 都 处 于 连续 工作 状态 ,也 就 是 说 它 应 该 要 对 原来 
抓 取 的 网 页 进行 更 新 。 只 有 这 样 一 个 搜索 引擎 才能 保证 其 索引 包含 索引 网 页 的 较 新 版 
本 。 对 于 这 种 连续 式 采集 来 说 ,采集 器 应 能 够 以 接近 网 页 的 频率 来 采集 网 页 。 

(6) 功能 可 扩展 性 。 采 集 器 的 设计 要 能 支持 在 很 多 方面 方便 地 进行 功能 扩展 ,比如 
可 以 处 理 新 的 数据 格式 、 新 的 抓 取 协议 等 ,这 就 要 求 采集 器 的 构架 要 高 度 模块 化 并 具有 充 
分 的 扩展 接口 。 


10.3.3 ”Web 采集 

目前 ,在 Internet 的 各 种 应 用 中 ,以 Web 应 用 最 为 普及 ,发 展 速度 尤为 迅速 , Web 上 
的 信息 资源 也 急剧 增加 。Web 资源 的 异 构 性 .开放 性 和 广泛 分 布 性 等 特点 ,使 用 户 在 获 
取 自 己 需 要 的 信息 资源 时 面临 很 大 的 困难 。 搜 索引 擎 的 出 现 为 解决 这 一 问题 提供 了 重要 
途径 , 它 也 逐渐 成 为 用 户 在 Web 上 获取 信息 的 主要 工具 。 

信息 采集 指 通过 Web 页 面 之 间 的 链接 关系 从 Web 上 自动 地 获取 页 面 信息 ,并 且 随 
着 链接 不 断 向 整个 Web 扩展 的 过 程 。 任 何 超 文本 采集 器 (不 论 是 面向 Web、 内 网 还 是 其 
他 的 超 文本 文档 集 ) 的 基本 处 理 如 下 : 首先 , 设 定 一 个 或 者 多 个 URL 为 采集 的 种 子 集合 
(seed set) ;接着 从 种 子 集合 中 选择 一 个 URL 进行 采集 ;然后 对 采集 到 的 页 面 进行 分 析 ， 
并 抽取 出 页 面 中 的 文本 和 链接 (每 个 链接 都 链 向 其 他 的 URL)。 抽 取出 的 文本 输入 文本 
索引 器 ,而 抽取 出 的 URL 则 加 入 到 待 采集 URL 池 (URL frontier, 以 下 简称 URL 池 ) 中 ， 
任何 时 候 URL 池 中 放 的 都 是 所 有 待 采集 网 页 的 URL。 实 现 这 一 过 程 主要 是 由 Web 信 
息 采 集 器 (Web Crawler) 来 完成 的 。Web Crawler 也 常 称 做 Web Spider、Web Robot 或 
Web Worm。 简 单 地 讲 , 它 主要 是 指 这 样 一 个 程序 ,从 一 个 初始 的 URL 集 出 发 ,将 这 些 
URL 全 部 放 入 到 一 个 有 序 的 待 采 集 队列 里 ,而 采集 器 从 这 个 队列 里 按 顺 序 取出 URL, 通 
过 Web 上 的 协议 获取 URL 所 指向 的 页 面 ,然后 从 这 些 已 获取 的 页 面 中 提取 出 新 的 
URL, 并 将 它们 继续 放 入 到 待 采 集 队 列 里 ,然后 重复 上 面 的 过 程 ,直到 采集 器 根据 自己 的 
策略 停止 采集 。 对 于 有 些 采 集 器 ,到 此 就 算 完结 了 ,而 对 于 另 一 些 采集 器 , 它 还 要 将 采集 
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到 的 页 面 数据 和 相关 数据 存储 、 索 引 并 在 此 基础 上 对 内 容 进行 分 析 。 
(1) 采集 器 架构 。 一 个 简单 的 采集 器 由 多 个 模块 构成 ,如 图 10-4 所 示 , 其 中 包括 五 种 
模块 。 


Ws Ee 
URL 
加 2 
www| “| 
抓 取 一 | 分 析 URL 去 重 


待 采 集 的 URL 池 
图 10-4 采集 器 的 基本 框架 


@ 待 采集 URL 池 。 它 包含 了 当前 待 采集 的 URL( 在 连续 采集 中 , 某 个 已 经 采集 过 
的 URL 可 能 还 会 放 回 到 该 采集 池 中 以 便 进 行 重新 采集 ) 。 

@ 域名 (DNS) 解 析 模块 。 它 在 URL 抓 取 网 页 时 用 于 确定 其 对 应 的 Web 服务 器 的 
IP 地 址 。 

@ 抓 取 模块 。 利 用 http 协议 返回 某 个 URL 对 应 的 网 页 。 

@ 分 析 模块 。 从 采集 到 的 网 页 中 抽取 文本 及 链接 。 

@ URL 去 重 模块 。 确 定 某 个 抽取 出 的 链接 是 否 已 在 URL 池 中 或 者 最 近 是 否 已 抓 

(2) URL 的 采集 流程 。 主 题 信 息 采 集 模块 负责 从 URL 开始 从 Internet 上 获取 信 
息 , 并 对 采集 回来 的 页 面 进行 处 理 。MRobot( 制 造 网 络 机 器 人 ) 负 责 从 Internet 上 获取 网 
页 并 进行 处 理 , 包 括 文档 类 型 过 滤 、 分 析 并 提取 链接 、 获 取 网 页 内 容 信息 、 对 文档 的 文本 内 
容 进 行 关键 词 分 析 并 形成 网 页 数据 库 。 

基于 鱼 群 算法 ,同时 结合 首页 关联 技术 、 页 面 内 容 预 测 技术 等 各 种 主题 采集 策略 的 
MRobot 工作 方式 如 下 : 

(1) 从 初始 URL 队列 (其 初始 值 为 预定 的 种 子 站 点 URL) 列 表 中 获得 一 个 URL 请 
求 页 面 。 种 子 站 点 的 建立 采用 了 人 工 预 选 技术 ,具体 来 说 就 是 运用 Google 和 百度 从 互联 
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网 上 搜集 一 些 国内 外 比较 知名 的 制造 资源 网 站 以 及 一 些 制 造 行业 的 企业 网 站 ,再 咨询 业 
内 的 一 些 专 家 、 教 授 来 确定 这 些 初始 种 子 站 点 。 以 机 械 行 业 为 例 : 机 械 行 业主 题 的 初始 
种 子 网 站 就 是 采用 国内 一 些 知 名 的 机 械 类 网 站 的 网 页 作为 初始 种 子 ( 例 如 中 国 机 械 网 )。 
它们 在 实际 应 用 中 得 到 了 国内 企业 界 的 支持 以 及 国内 互联 网 行业 的 一 致 认可 ,具有 广泛 
的 知名 度 及 很 高 的 权威 性 。 同 时 后 续 种 子 的 添加 过 程 中 通过 咨询 业内 的 专家 和 学 者 不 断 
地 对 种 子 网 页 进行 更 新 和 完善 。 

(2) 分 析 获 取 的 页 面 ,提取 超 链 接 和 页 面 内 容 信息 。 对 种 子 站 点 内 部 链接 直接 插入 
待 处 理 URL 队列 头 部 ,将 站 外 链接 URL 插入 待 处 理 URL 队列 最 后 端 。 

(3) 对 非 种 子 站 点 的 URL ,提取 其 首页 分 析 其 主题 相关 性 。 如 果 相 关 , 则 按照 和 种 子 
站 点 的 页 面相 同 的 处 理 方式 ,否则 直接 丢弃 ,对 整个 站 点 都 不 再 采集 。 

(4) 提取 获取 页 面 的 内 容 信息 ,将 结果 添加 到 数据 库 。 

(5) 将 URL 加 入 已 处 理 URL 列表 并 获取 下 一 个 待 处 理 的 URL, 如 此 不 断 循 环 直到 
待 处 理 URL 列表 为 空 。 

具体 来 说 ,MRobot 采集 流程 如 图 10-5 所 示 。 为 提高 信息 采集 的 效率 ,采用 了 多 线程 
的 技术 同时 对 多 个 URL 进行 处 理 。 网 络 机 器 能 够 自动 地 访问 网 络 上 数 百 上 千 的 Web 服 
务 器 站 点 。 


10.3.4 域名 解析 

人 们 习惯 记忆 域名 ,例如 桂林 电子 科技 大 学 网 站 的 域名 是 www. guet. edu. cn, 但 计 
算 机 间 互 相 只 认 IP 地 址 ,例如 桂林 电子 科技 大 学 网 站 的 IP 地 址 是 202. 193. 64. 56 ,域名 
与 IP 地 址 之 间 是 一 一 对 应 的 ,它们 之 间 的 转换 工作 称 为 域名 解析 ,域名 解析 需要 由 专门 
的 域名 解析 服务 器 来 完成 ,整个 过 程 是 自动 进行 的 。 当 网 站 设计 完成 后 上 传 到 虚拟 主机 
时 ,可 以 直接 在 浏览 器 中 输入 IP 地 址 浏览 网 站 ,也 可 以 输入 域名 查询 网 站 ,虽然 得 出 的 内 
容 是 一 样 的 ,但 是 调用 的 过 程 不 一 样 ,输入 IP 地 址 是 直接 从 主机 上 调用 内 容 , 输 入 域名 是 
通过 域名 解析 服务 器 指向 对 应 主机 的 IP 地 址 ,再 从 主机 调用 网 站 的 内 容 。 

1. 树 状 结构 的 域名 空间 

为 便于 管理 ,Internet 中 的 域名 采用 层次 结构 ,并 用 域名 空间 来 描述 ,如 图 10-6 所 示 。 
在 域名 空间 中 ,把 名 字 定 义 到 一 棵 倒置 的 树 形 结构 中 (类 似 家 谱 树 ), 树 的 每 一 级 定义 了 域 
名 层次 的 每 一 级 。 

树 状 层次 结构 上 的 每 一 个 节点 都 有 一 个 域名 ,每 一 个 域名 都 由 该 节点 向 上 读 到 根 节 
点 ,通常 根 节点 的 标号 为 空 。DNS 要 求 每 个 节点 其 下 的 子 节点 应 具有 不 同 的 标号 ,因此 
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初始 种 子 队列 URL 


结束 


建立 多 线程 
(每 个 线程 抓 取 一 个 URL) 


超 链接 提取 ， 调 用 fish 
算法 插入 队列 


内 容 提取 ， 分 析 后 填 入 


数据 库 


图 10-5 MRobot 主题 信息 采集 流程 


(root) 


| 


Arpa edu com org | | gov | 


图 10-6 域名 空间 的 层次 结构 


这 种 树 状 结构 保证 了 域名 的 唯一 性 。 

2. 地 址 解析 

利用 上 面 的 层次 结构 ,地 址 映射 就 可 以 分 布 到 所 有 DNS 服务 器 上 了 ,这 就 为 分 布 式 
数据 库 提供 了 依据 。 当 主机 发 出 它 的 DNS 请 求 时 ,该 请 求 首先 被 发 往 本 地 DNS 服务 器 ， 
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如 有 需要 ,本 地 DNS 服务 器 将 该 请 求 转发 到 DNS 层次 结构 中 去 ,实现 地 址 映射 。 在 这 种 
机 制 下 ,就 涉及 DNS 客户 机 与 DNS 服务 器 以 及 各 服务 器 之 间 的 通信 。 这 里 我 们 通常 采 
用 的 查询 方式 是 递归 查询 和 迭代 查询 。 

递归 查询 。 所 谓 递归 查询 ,是 指 接受 查询 请 求 的 第 一 个 DNS 服务 器 必须 对 请 求 进行 
处 理 并 予以 响应 。 假 设 主机 www. guet. edu. cn 要 请 求 www. baidu. com 的 IP 地 址 ,本 
地 服务 器 将 该 查询 转发 到 上 级 服务 器 ,上 级 服务 器 再 将 该 查询 转发 到 更 高 级 的 根 服务 器 ， 
直到 查询 被 解析 出 来 或 出 错 为 止 。 

迭代 查询 。 如 果 客 户 机 没有 要 求 递 归 查 询 , 则 可 以 按 迭 代 方 式 映射 。 迭 代 过 程 中 的 
每 一 次 查询 请 求 都 由 容 户 机 发 出 ,对 查询 的 每 一 次 响应 也 直接 返回 给 客户 机 ,如 果 没 有 解 
析 到 IP 地 址 ,返回 的 内 容 将 包括 下 一 个 人 逻辑 上 更 近 的 DNS 服务 器 的 IP 地 址 ,客户 机 根 
据 这 个 IP 地 址 继续 查询 ,直到 返回 的 是 最 终结 果 或 者 出 错 。 理 论 上 ,DNS 查询 既 可 以 是 
递归 的 也 可 以 是 迭代 的 。 在 实际 应 用 中 ,通常 把 递归 查询 和 和 迭代 查询 结合 起 来 使 用 。 

3. DNS 高 速 缓存 

在 信息 量 巨大 的 Internet 中 ,网 络 带 宽 、 服 务 器 负载 等 是 一 直面 临 并 努力 优化 的 问 
题 。 设 想 一 下 ,如 果 DNS 服务 器 每 次 收 到 对 本 地 之 外 的 连接 请 求 时 都 进行 逐 层 查 询 , 那 
么 这 些 应 用 带 来 的 网 络 通信 和 量 将 相当 巨大 ,并 且 带 来 额外 的 时 延 。 为 解决 这 一 问题 ,DNS 
设置 了 高 速 缓存 ,和 很 多 方面 一 样 , 它 采用 宛 余 技术 。DNS 缓存 原理 很 简单 : 当 DNS 服 
务 器 收 到 一 个 DNS 回答 时 , 它 就 将 映射 信息 缓存 在 本 地 存储 器 上 ,在 下 一 次 收 到 查询 请 
求 时 ,DNS 服务 器 就 首先 检查 本 地 缓存 ,如 果 在 本 地 缓存 中 存在 所 需 信息 , 它 就 直接 从 组 
存 中 取出 信息 回答 客户 机 的 请 求 , 如 果 所 需 信息 不 在 缓存 中 , 则 再 发 出 进一步 的 查询 。 

每 个 Web 服务 器 (实际 上 每 个 连 入 Internet 的 主机 ) 都 有 一 个 唯一 的 IP 地 址 。 在 
DNS 解析 过 程 中 ,需要 进行 IP 地 址 转换 的 程序 (这 里 指 搜索 引擎 采集 器 ) 会 联系 一 个 
DNS 服务 器 来 返回 IP 地 址 。 众 所 周知 ,DNS 解析 在 Web 采集 中 是 一 个 “瓶颈 ”。 由 于 域 
名 服务 本 身 就 是 分 布 式 的 ,所 以 DNS 解析 可 能 包括 多 个 请 求 在 Internet 上 的 往返 过 程 ， 
这 通常 需要 数秒 甚至 更 多 的 时 间 。 这 样 ,就 会 给 每 秒 获取 数 百 网 页 的 采集 目标 造成 极 大 
困难 。 一 个 常规 的 措施 就 是 引入 缓存 机 制 。 然 而 ,遵循 采集 中 的 完整 性 要 求 往往 又 会 限 
制 缓存 的 命中 率 。DNS 解析 还 存在 另外 一 个 严重 的 困难 ,采集 器 的 开发 者 往往 使 用 标准 
库 ( 这 个 库 可 能 被 开发 采集 器 的 任何 一 个 人 使 用 ) 来 实现 DNS 解析 功能 ,为 了 避免 这 个 问 
题 , 大 部 分 Web 采集 器 都 会 采用 自己 的 DNS 解析 器 。 
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10.3.5 待 采集 URL 池 

在 每 个 节点 上 ,采集 进程 或 其 他 采集 进程 的 主机 分 割 器 会 将 URL 放 人 本 节点 的 
URL 池 中 。 该 采集 池 会 维护 一 系列 URL, 并 在 采集 线程 需要 寻找 URL 时 ,以 某 种 次 序 
将 URL 输出 。 采 集 池 中 URL 的 输出 次 序 必须 要 考虑 到 两 个 重要 的 方面 。 

第 一 ,频繁 改变 的 高 质量 网 页 应 该 优先 考虑 频繁 采集 。 因 此 ,网 页 的 优先 级 应 该 是 其 
变化 率 和 质量 的 函数 (可 以 采用 某 些 合理 的 质量 估计 方法 )。 由 于 大 量 作 油 网 页 在 每 次 抓 
取 时 几乎 完全 改变 ,所 以 同时 考虑 变化 率 和 质量 这 两 者 是 十 分 必要 的 。 

第 二 ,要 考虑 完整 性 问题 。 我 们 必须 避免 在 很 短 的 时 间 间 隔 内 反复 访问 同一 主机 。 
由 于 很 多 URL 会 链 向 同一 主机 的 其 他 URL, 因 此 会 产生 互相 引用 的 局 部 效应 ,因此 ,如 
果 不 进行 控制 ,那么 在 很 短 时 间 内 访问 同一 主机 的 可 能 性 很 大 。 所 以 ,如 果 URL 池 的 实 
现 中 只 使 用 简单 的 优先 级 队列 ,就 会 造成 对 某 个 主机 的 突 发 性 高 频 访问 。 甚 至 即使 在 我 
们 限制 在 任何 时 刻 最 多 只 有 一 个 采集 线程 访问 某 个 主机 的 情况 下 ,上 述 突 发 高 频 访 问 仍 
然 有 可 能 发 生 。 一 个 普遍 使 用 的 启发 式 策略 是 ,在 对 某 个 主机 发 送 连续 的 两 次 抓 取 请 求 
之 间 插 入 一 个 时 间 间 隔 , 它 要 比 最 近 一 次 从 该 主机 抓 取 网 页 所 需 的 时 间 高 一 个 数量 级 。 
图 10-7 给 出 了 URL 池 的 一 个 实现 示意 图 , 它 支持 优先 级 处 理 并 遵循 完整 性 访问 原则 。 
其 目标 是 为 了 保证 : @ 在 任 一 时 刻 只 有 一 个 连接 对 主机 开放 ; @ 在 连续 两 次 主机 请 求 之 
间 ,需要 等 待 数秒 ; 加 高 优先 级 网 页 优先 采集 。 

URL 池 通 常 采 用 基于 层次 语义 的 URL 排序 算法 ,多 辑 如 下 。 

(1) 输入 目标 主题 ,初始 URL 值 , 阔 值 五 。 

(2) 根据 目标 主题 ,从 领域 概念 树 中 获取 知识 路 径 “knowledge-path”。 

(3) 按照 “knowledge-path” 构 造 主题 层次 ,最 小 层 号 为 语义 不 相关 层 , 最 大 层 号 为 目 
标 主题 层 。 

(4) 对 各 主题 层 (语义 不 相关 层 , 层 0 除外 ) 训 练 对 应 的 一 个 分 类 器 。 

(5) 初始 化 一 个 URL 等 待 队列 (UrlQueue)。 

(6) 初始 URL 进入 URL 等 待 队列 (UrlQueue) 。 

(7) 提取 URL 等 待 队列 的 队 首 URL 元 素 , 疏 取 URL 指向 的 Web 文档 d。 

(8) 基于 层次 语义 的 Web 文档 分 类 。 将 候 取 过 来 的 Web 文档 d 分 配 至 与 它 最 相似 
的 主题 层 , 并 赋予 Web 文档 d 的 层次 语义 度量 。 

(9) 析 取 文档 d 中 的 URL 链接 ,由 链接 信息 库 中 链接 状态 过 滤 掉 已 被 朴 取 和 出 错 的 
URL 链接 。 
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F 个 前 端 队列 


有 偏 的 前 队列 选择 器 
后 端 队列 路 由 器 


3 i 


8 个 后 端 队列 == 
每 个 队列 对 应 单个 主机 


后 六 队列 路 由 器 


1 
图 10-7 URL 池 示 意图 


(10) 基于 层次 语义 的 URL 链接 排序 。 对 URL 等 待 队 列 (UrlQueue) 中 的 候选 URL 
链接 按 层次 语义 组 合 排序 度量 排序 。 
(11) 若 URL 等 待 队列 不 为 空 , 则 转 (7) ,否则 结束 。 


10.3.6 分 布 式 索 引 

在 信息 爆炸 式 增长 的 今天 ,Google、 百 度 等 知名 搜索 引擎 已 经 被 广泛 使 用 , 它 为 信息 
收集 带 来 了 便利 ,然而 在 这 背后 支撑 搜索 引擎 体系 架构 的 一 项 重要 工作 基础 是 索引 。 当 
需要 搜索 大 量 的 网 页 文档 ,并 且 想 找 出 包含 一 个 指定 的 词 或 短语 的 文档 时 ,编写 程序 的 一 


第 10 章 Web 信息 搜索 / 337 


个 简单 方法 是 针对 给 定 的 词 或 短语 进行 顺序 扫描 每 个 文档 。 这 个 方法 有 很 多 缺点 ,最 明 
显 的 是 不 适合 大 量 的 文档 或 者 文档 非常 巨大 的 情况 。 索 引 因此 而 产生 ,为 了 能 够 提高 效 
率 , 先 将 文档 转化 为 一 个 可 以 进行 快速 搜索 的 格式 ,避免 传统 缓慢 的 顺序 扫描 过 程 , 这 个 
转化 称 为 建立 索引 。 所 以 ,可 以 把 索引 简单 地 理解 为 一 个 可 以 快速 随机 访问 存在 其 内 部 
词 的 数据 结构 。 而 如 今 数 据 的 存储 已 经 不 只 是 一 个 文档 一 台 计 算 机 ,网 络 将 存储 的 范围 
扩展 到 了 全 世界 ,要 在 如 此 海量 的 数据 中 快速 检索 更 加 需要 新 型 索引 的 支持 一 一 分 布 式 
索引 。 

分 布 式 信息 检索 是 指 由 检索 代理 程序 将 检索 任务 同时 提交 给 网 络 上 的 多 个 主机 ,由 
位 于 这 些 主机 上 的 检索 程序 分 别 独 立 检 索 并 将 检索 结果 返回 到 检索 代理 程序 ,经 过 整理 
后 显示 给 用 户 。 

分 布 式 信息 检索 由 各 种 分 布 式 Web 服务 器 执行 具体 任务 ,虽然 它们 的 工作 原理 不 尽 
相同 ,但 要 解决 的 基本 问题 却 大 体 一 致 : 一 是 要 有 某 种 机 制 把 客户 的 请 求 分 派 到 各 个 成 
员 服 务 器 上 ,二 是 要 有 一 个 算法 来 指导 请 求 分 派 以 保证 各 个 成 员 服务 器 的 负载 均衡 ,三 是 
要 在 各 个 成 员 服 务 器 恰当 地 复制 和 分 布 Web 站 点 内 容 以 维护 其 一 致 性 并 保证 成 员 服务 
器 的 存 取 效率 。 

分 布 式 索引 构建 方法 是 Map Reduce 的 一 个 应 用 。Map Reduce 是 一 个 通用 的 分 布 
式 计算 架构 , 它 面向 大 规模 计算 机 集群 而 设计 。 集 群 的 关键 是 利用 价格 低廉 的 通用 计算 
机 ( 称 为 节点 ,node) 来 解决 大 型 的 计算 问题 ,这 些 计算 机 都 采用 通用 的 标准 部 件 ( 处 理 器 、 
内 存 和 磁盘 ) ,而 不 是 像 超级 计算 机 那样 采用 专用 硬件 。 尽 管 在 这 样 的 一 个 计算 机 集群 当 
中 包含 成 百 上 千 台 计算 机 ,但 每 台 计 算 机 都 有 可 能 在 任意 时 刻 失 效 。 因 此 ,要 保障 分 布 式 
索引 构建 过 程 的 鲁 棒 性 ,就 必须 把 整个 任务 分 成 易 分 配 的 子 任务 块 ,并 在 节点 失效 时 能 够 
重新 分 配 。 集 群 中 的 主 控 节点 (master node) 负 责 处 理 在 工作 节点 上 的 分 配 和 重 分 配 任 
务 。Map Reduce 中 的 Map 阶段 和 Reduce 阶段 将 计算 任务 划分 成 子 任务 块 ,以 便 每 个 工 
作 节 点 在 短 时 间 内 快速 处 理 。 图 10-8 给 出 了 Map Reduce 的 具体 逻辑 步 又 。 

一 般 来 说 ,Map Reduce 会 通过 “ 键 - 值 对 ”(key-value pair) 的 转换 处 理 , 将 一 个 大 型 的 
计算 问题 转化 成 较 小 的 子 问 题 。 在 索引 构建 中 ,“ 键 - 值 对 ”的 形式 就 是 词 项 ID 与 文档 ID 
匹配 。 在 分 布 式 索 引 的 构建 过 程 中 ,从 词 项 到 其 ID 的 映射 同样 要 分 布 式 进行 ,因此 分 布 
式 的 索引 构建 方法 要 比 单机 上 的 索引 构建 方法 复杂 得 多 。 一 种 简单 的 解决 方法 就 是 维护 
一 张 高 频 词 到 其 ID 的 映射 表 并 将 它 复制 到 所 有 节点 计算 机 上 ,对 低频 词 则 直接 使 用 词 项 
本 身 而 不 是 其 ID, 所 有 节点 都 共享 一 致 的 词 项 到 其 ID 的 映射 表 。 

Map Reduce 的 Map 阶段 将 输入 的 数据 片 映射 成 “ 键 - 值 对 ”, 这 个 Map 分 别 对 应 于 相 
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Map 阶 段 分 区 文件 Reduce 阶 段 
图 10-8 一 个 使 用 Map Reduce 进行 分 布 式 索引 构建 的 例子 


应 算法 中 的 分 析 任 务 , 因 此 也 将 执行 Map 过 程 的 机 器 称 为 分 析 器 (parser)。 每 个 分 析 器 
将 输出 结果 存在 本 地 的 中 间 文 件 ( 也 称 为 分 区 文件 ,segment file) 中 。 在 Reduce 阶段 ,我 
们 想 将 同一 键 ( 词 项 ID) 的 所 有 值 (文档 ID) 集 中 存储 ,以 便 快 速 读 取 和 处 理 。 

实现 时 ,将 所 有 的 键 按照 词 项 区 间 划 分 成 段 , 并 将 属于 每 个 段 的 “ 键 - 值 对 ” 写 人 各 自 
分 区 文档 即 可 。 图 10-8 中 ,所 有 的 词 项 按照 首 字 母 来 分 成 三 段 : a 一 fg 一 p 及 q 一 z。 词 
项 的 分 割 方法 由 运行 索引 系统 的 用 户 来 定义 。 每 个 分 析 器 各 自 写 相应 的 分 区 文档 ,每 个 
分 区 文档 对 应 一 个 词 项 区 间 。 因 此 ,在 整个 系统 中 ,每 个 词 项 区 间 会 对 应 7 个 分 区 文档 ， 
其 中 ,r 是 分 析 器 的 个 数 。 假 设 对 于 a~f 分 区 ,有 三 个 a~f 分 区 文件 ,它们 分 别 对 应 三 个 
分 析 器 。 

Reduce 阶段 由 倒 排 器 (inverter) 来 完成 , 主 控 节 点 将 每 个 词 项 分 区 分 配给 不 同 的 倒 
排 器 ,并 在 倒 排 器 失效 或 者 变 慢 的 时 候 将 在 其 上 处 理 的 词 项 分 区 进行 重新 分 配 。 最 后 ,每 
个 键 对 应 的 所 有 值 要 进行 排序 并 写 到 最 终 的 排序 倒 排 记录 表 ( 图 中 以 “ 倒 排 记录 表 ” 来 表 
示 ) 中 。 需 要 指出 的 是 ,图 10-8 中 每 个 倒 排 记录 当中 还 包括 词 项 频率 ,针对 a~f 分 区 处 理 
的 数据 流 如 图 10-8 所 示 。 到 这 里 为 止 ,整个 倒 排 索引 的 构建 才 宣告 完成 。 

分 析 器 和 倒 排 器 并 不 一 定 是 不 同 的 机 器 , 主 控 节 点 发 现 空闲 的 机 器 后 会 给 它 分 配 新 
的 任务 。 同 一 台 机 器 在 Map 阶段 中 可 以 作为 分 析 器 ,而 在 Reduce 阶段 也 可 以 作为 倒 排 
器 。 另 外 ,索引 构建 的 同时 ,机 器 上 往往 也 在 同时 运行 其 他 任务 ,所 以 在 做 分 析 器 和 倒 排 
器 之 外 ,一 台 机 器 也 可 能 运行 采集 程序 或 者 其 他 不 相关 的 任务 。 为 了 尽量 减少 在 倒 排 器 
对 数据 进行 Reduce 之 前 的 读 写 时 间 , 每 个 分 析 器 都 将 其 分 区 文档 写 到 本 地 磁盘 。 在 
Reduce 阶段 , 主 控 节 点 会 通知 倒 排 器 与 之 相关 的 分 区 文件 的 位 置 ( 例 如 , 词 项 a~f 分 区 对 
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应 的 六 个 分 区 文档 ) 。 

在 每 个 分 析 器 上 ,由 于 与 某 个 特定 倒 排 器 相关 的 数据 已 经 被 分 析 器 写 人 一 个 单独 的 
分 区 文档 中 ,所 以 每 个 分 区 文档 仅 需要 一 次 顺序 读 取 过 程 。 这 种 设置 方法 可 以 使 索引 时 
所 需 的 网 络 通信 开销 最 小 。 图 10-9 给 出 了 Map Reduce 的 通用 函数 构架 。 由 于 输入 和 输 
出 通常 都 是 “ 键 - 值 对 ”列表 本 身 ,所 以 多 个 Map Reduce 任务 能 够 串 行 执行 。 实 际 上 ,这 正 
是 Google 索引 系统 的 设计 方案 。 


Map 和 Reduce 函 数 的 构架 

Map: 输 入 —list(k, v) 

Reduce : (k, list(v)) 一 输出 

索引 构建 中 上 述 构架 的 实例 化 

Map: Web 文 档 集 一 list( 词 项 [DD， 文 档 ID) 


Reduce :(《 文 档 ID,，list(doc ID)〉》,《 文 档 ID,，list(doc ID)》，… ) 
一 ( 倒 排 记录 表 1， 倒 排 记录 表 2，…) 
索引 构建 的 一 个 例子 


Map:d: C died.di: C came, C ce d. 

—((C,d,) (died,d,> , (C,di) (came,(di) 《Cd》，《ced(d)》) 
Reduce: ( (C.(di,dy,d3)) , (died,(d;,)) , came,(di) ) , (ec'e d,(di)) ) 

— ((C,(di:2,d:1)) , (died,(dy:1) , (came,(d1)) ,(c'e d,(d1:1)〉 ) 


图 10-9 Map Reduce 中 的 Map 和 Reduce 也 数 


10.3.7 连接 服务 器 

自 20 世纪 90 年 代 以 来 ,Internet 的 应 用 在 全 球 范围 内 得 到 了 迅猛 发 展 ,一 方面 微 处 
理 器 性 能 得 到 了 很 大 的 提高 ,Internet 基础 设施 也 在 不 断 提升 , 越 来 越 多 的 计算 设备 接 入 
到 Internet 中 ; 男 一 方面 ,Web 应 用 正成 为 Internet 上 最 重要 的 一 种 应 用 。 据 统计 ,Web 
信息 流量 已 经 占 到 了 整个 Internet 信息 量 的 80% 以 上 ,而 且 , 越 来 越 多 的 应 用 开始 采用 基 
于 Web 的 B/S 服务 模式 。 

由 于 某 些 原因 ,Web 搜索 引擎 需要 一 个 连接 服务 器 (connectivity server) 来 支持 Web 
图 连接 查询 (connectivity query) 的 快速 处 理 。 典 型 的 连接 查询 包括 “给 定 的 ULR 被 哪些 
ULR 所 指向 ”及 “给 定 URL 指向 了 哪些 URL” 等 。 为 此 ,我 们 在 内 存 中 存储 了 从 ULR 到 
链 出 及 URL 到 链 入 的 映射 表 。 

假定 整个 Web 包含 40 亿 网 页 ,每 个 网 页 有 10 个 链接 指向 其 他 网 页 (这 种 情况 称 为 
链 出 )。 在 最 简单 的 形式 下 ,对 每 个 链接 的 首尾 两 端 ( 链 接 源 和 链接 目标 ) ,分 别 采 用 32 比 
特 位 或 者 说 4 个 字 节 来 描述 ,于 是 总 共 需 要 4X10? X10X8 二 3.2X10" 字 节 的 内 存 。 我 
们 可 以 利用 Web 图 的 一 些 特性 将 上 述 内 存 的 需求 压缩 到 10% 以 下 。 假 定 每 个 网 页 都 用 
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唯一 的 整数 表示 ,首先 建立 一 个 类 似 于 倒 排 索引 的 邻接 表 , 其 每 行 都 对 应 一 个 网 页 ,并 按 
照 其 对 应 的 整数 大 小 来 排序 。 任 一 网 页 p 对 应 的 行 中 包含 的 也 是 一 系列 整数 的 排序 结 
果 , 每 个 整数 对 应 的 是 链 向 p 的 网 页 编号 。 这 张 邻接 表 允 许 应 答 类 似 于 “哪些 网 页 指向 
p” 的 查询 。 以 同样 的 方法 ,可 以 建立 所 有 指向 p 网 页 的 邻接 表 。 

原始 的 表示 方法 中 , 均 采用 32 比特 整数 位 来 表示 每 个 链接 的 源 页 面 和 目标 页 面 ,而 
上 述 这 种 邻接 表 的 表示 方法 能 够 将 原始 表示 的 空间 降低 50%。 新 的 方法 是 从 网 页 中 链 
出 的 链接 来 组 成 邻接 表 , 此 技术 容易 应 用 到 链接 网 页 的 邻接 表 上 。 为 了 进一步 减少 上 表 
的 存储 空间 ,可 以 采用 以 下 几 种 思路 。 

(1) 表 中 的 相似 度 : 表格 中 很 多 行 的 公共 相似 元 素 。 因 此 ,如 果 将 多 个 相似 行 表示 成 
一 个 原型 ,那么 其 他 相似 行 就 可 以 采用 这 个 原型 来 简洁 表示 。 

(2) 局 部 性 : 某 个 网 页 会 链接 到 其 相 邻 的 网 页 ,比如 链接 到 同一 主机 的 网 页 。 这 意味 
着 ,如 果 对 链接 目标 进行 编码 时 ,往往 可 以 通过 使 用 小 数 点 来 达到 节省 空间 的 目的 。 

(3) 在 排序 表 中 使 用 间隔 编码 : 不 直接 存储 链接 目标 的 编号 ,而 是 存储 与 其 前 一 个 元 
素 的 偏 移 。 


10.3.8 Web 图 

可 以 将 整个 静态 Web 看 成 是 静态 HTML 网 页 通过 超 链 接 互 相连 接 而 成 的 有 向 图 ， 
其 中 每 个 网 页 是 图 的 顶点 ,而 每 个 超 链接 则 代表 一 个 有 向 边 。 

图 10-10 为 两 个 顶点 通过 链接 构成 的 Web 图 ,每 个 顶点 代表 一 个 网 页 ,A 网 页 上 有 
一 个 超 链接 指向 B。 将 所 有 这 样 的 顶点 和 有 向 边 集合 称 为 Web 图 。 图 10-10 还 表明 ,在 
A 网 页 上 的 超 链接 周围 还 有 一 些 文本 ,大 部 分 网 页 链接 的 实际 情况 也 是 如 此 。 这 些 文本 
通常 被 舱 在 (a) 标签 ( 称 为 锚 ) 的 href 属性 中 。 该 有 向 图 也 有 可 能 不 是 一 个 强 连通 
(strongly connected) 图 ,也 就 说 ,从 一 个 网 页 出 发 , 沿 着 超 链 接 前 进 , 有 可 能 永远 不 会 到 达 
男 外 某 个 网 页 。 将 指向 某 个 网 页 的 链接 称 为 人 链接 (in-link) ,而 从 某 个 网 页 指出 去 的 链 
接 称 为 出 链接 (out-link)。 一 个 网 页 的 链 入 数目 被 称 为 这 个 网 页 的 入 度 (in-degree) ,在 一 
系列 研究 中 得 到 的 网 页 的 平均 入 度 从 8 一 15 不 等 。 同 样 ,我 们 可 以 定义 某 个 网 页 的 出 链 
接 数 目 为 其 出 度 (out-degree)。 图 10-11 给 出 了 展示 这 些 概 念 的 一 个 例子 。 

链接 分 析 的 研究 主要 基于 两 个 基本 思考 点 : 指向 页 面 B 的 锚 文 本 是 对 B 的 一 个 很 
好 的 描述 ; @A 到 B 的 超 链接 表示 A 的 作者 对 B 的 认可 。 当 然 ,并 非 所 有 情况 都 会 如 
此 ,比如 , 某 个 网 站 网 页 中 的 很 多 链接 源 于 通用 模板 的 使 用 。 例 如 ,大 部 分 公司 网 站 的 每 
个 网 页 都 有 一 个 链接 指向 版 权 声 明 页 面 。 这 种 链接 显然 不 代表 认可 的 意义 。 因 此 ,链接 
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图 10-10 两 个 项 点 通过 链接 构成 Web 图 图 10-11 一 个 小 型 Web 图 例子 


分 析 算 法 在 实施 过 程 中 通常 会 去 掉 这 些 “ 内 部 ”的 链接 。 锚 文本 和 Web 图 下 面 来 自 某 个 
网 页 的 HTML 代码 片段 给 出 了 一 个 指向 期 刊 Journal of the ACM 的 链接 : 二 a href= 
http://www. acm. org/jacm/" 二 Journal of the ACM< 一 /a 之 。 这 个 例子 中 ,链接 指向 页 面 
www. acm. org/jacm/ ,其 锚 文 本 为 Journal of the ACM。 显 然 , 在 这 个 例子 中 锚 文本 是 对 
目标 页 面 的 文字 描述 ,但 是 目标 B=http: //www. acm. org/jacm/ 本 身 除 了 其 他 有 关 期 
刊 的 信息 外 也 包含 了 这 段 文字 描述 。 

那么 , 锚 文本 到 底 起 什么 作用 呢 ? Web 上 随处 可 见 的 一 个 现象 是 很 多 网 页 (如 
图 10-11 所 示 的 目标 网 页 B) 的 内 容 并 不 包含 对 自身 的 精确 描述 。 很 多 情况 下 ,问题 主要 
是 出 在 网 页 的 设计 者 对 网 页 内 容 的 选择 上 。 这 个 问题 对 于 公司 网 页 来 说 更 加 普遍 ,因为 
它们 往往 是 用 做 商业 宣传 而 不 是 介绍 公司 内 容 。 尽 管 IBM 被 普遍 认为 是 世界 上 最 大 的 
计算 机 制造 商 , 但 是 其 公司 www. ibm. com 的 HTML 代码 的 任何 地 方 都 不 包含 词 项 
computer。 类 似 地 , Yahool! 主页 www. yahoo. com 的 HTML 代码 中 也 不 包含 单词 
portal 。 

因此 ,Web 网 页 本 身 携带 的 词 项 和 用 户 用 于 描述 同一 网 页 的 词 项 之 间 往 往 存在 着 一 
定 的 差异 。 因 此 ,Web 搜索 者 不 一 定 要 使 用 网 页 中 的 词 项 来 对 网 页 进行 查询 。 另 外 ,很 
多 Web 网 页 中 的 图 形 和 图 像 十 分 丰富 ,并 且 ( 或 者 ) 在 图 像 中 嵌入 了 文字 。 这 种 情况 下 ， 
采集 时 进行 的 HTML 分 析 就 无 法 抽出 文本 来 构建 网 页 索引 , 则 解决 方法 是 用 锚 文 本 来 取 
代 , 通 过 它 就 可 以 聚集 多 个 Web 网 页 创建 者 的 集体 力量 。 

很 多 指向 www. ibm. com 链接 上 的 锚 文 本 都 包含 单词 computer, 这 个 事实 就 可 以 为 
Web 搜索 引擎 所 使 用 。 比 如 , 锚 文 本 中 的 词 项 就 可 以 作为 索引 目标 网 页 的 词 项 。 因 此 ， 
词 项 computer 的 倒 排 记录 表 中 就 会 包含 文档 www. ibm. com ,而 词 项 portal 的 倒 排 记 录 
表 也 同样 会 包含 文档 www. yahoo. com。 这 时 通过 一 个 特别 的 指示 器 来 表示 这 些 词 项 出 
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现在 锚 文本 中 而 不 是 页 内 文本 中 。 同 页 内 词 项 一 样 . 通 常 也 会 基于 词 频 来 计算 锚 文 本 词 
项 的 权重 。 

锚 文本 的 使 用 会 产生 一 些 有 趣 的 副作用 ,例如 ,在 大 部 分 Web 搜索 引擎 中 用 “big 
blue” 来 搜索 时 ,IBM 公司 的 主页 都 会 出 现在 排名 靠 前 的 结果 中 ,因为 这 与 很 多 人 提 到 
IBM 时 所 常常 采用 的 绰号 是 一 致 的 。 另 外 ,网 上 已 有 并 会 持续 存在 这 样 的 实例 : 当 用 类 
似 “evil empire” 的 词 项 在 Web 搜索 引擎 中 搜索 时 ,这 些 贬 义 的 锚 文 本 往往 会 导致 意料 之 
外 的 结果 。 这 种 现象 能 够 在 针对 某 些 特定 网 站 进行 的 精心 策划 活动 中 得 到 。 这 种 刻意 策 
划 的 锁 文 本 可 能 是 一 种 作 商 形式 , 某 个 网 站 可 以 通过 构造 具有 误导 性 的 锚 文 本 来 指向 自 
己 , 从 而 提高 在 某 些 查询 词 项 上 的 排名 。 检 测 这 些 对 锚 文本 的 滥用 是 Web 搜索 引擎 所 从 
事 的 另外 一 种 必要 工作 。 锚 文本 周围 窗口 中 的 文本 (有 时 被 称 为 扩充 的 锚 文 本 ,extended 
anchor text) 常 常 也 可 以 当成 锚 文本 的 扩充 来 等 同 使 用 。 


10.4 主要 网 页 排序 算法 


网 页 排序 算法 是 搜索 引擎 的 一 个 核心 支撑 技术 ,目的 是 依据 一 定 的 网 页 内 容 关 系 ( 例 
如 链 入 、 链 出 、 共 同 链 等 ) 或 网 页 用 户 行为 (用 户 点 击 量 、 浏 览 时 间 、 下 载 次 数 、 页 面 的 用 户 
评论 数 等 ) ,与 用 户 的 网 页 检索 需求 进行 匹配 ,并 依据 排序 规则 对 相关 网 页 进行 合理 排序 ， 
把 排序 后 的 检索 结果 反馈 给 用 户 。 

网 页 排序 算法 (PageRank) 最 早 是 由 斯 坦 福 大 学 的 博士 研究 生 Sergey Brin 和 
Lawrence Page 首次 提出 的 一 种 算法 , 它 对 网 页 质量 进行 评价 ,为 每 个 网 页 赋予 一 个 衡量 
其 重要 性 的 权 值 (PR 值 ) ,并 最 后 应 用 于 检索 结果 的 排序 。PageRank 的 基本 思想 来 源 于 
传统 文献 计量 学 中 的 文献 引文 分 析 方 法 。 

传统 的 文献 引文 分 析 认 为 ,一 篇 学 术 论 文 的 重要 性 及 质量 可 以 通过 其 他 学 术 论文 对 
其 进行 引用 的 数量 来 衡量 , 即 被 其 他 学 术 论 文 引用 得 越 多 , 则 这 篇 文章 就 显得 越 重 要 。 
PageRank 应 用 传统 的 文献 引文 分 析 思 想 ,提出 了 一 个 假设 , 即 网 页 的 重要 性 和 质量 可 以 
通过 其 他 网 页 对 其 超 文本 链接 的 数量 来 衡量 。 具 体 来 说 ,假如 网 页 A 有 一 个 指向 网 页 B 
的 链接 , 则 意味 着 网 页 A 认为 网 页 B 是 重要 的 。 假 如 有 10 个 网 页 指向 A 网 页 ,而 指向 网 
页 B 的 链接 却 只 有 2 个 , 则 说 明 网 页 A 比 网 页 B 更 加 重要 。 

在 计算 网 站 排名 时 ,PageRank 会 将 网 站 的 外 部 链接 数 考虑 进去 。 可 以 认为 : 一 个 网 
站 的 外 部 链接 数 越 多 ,其 PR 值 就 越 高 ;外 部 链接 站 点 的 级 别 越 高 (假如 Macromedia 的 网 
站 链 到 你 的 网 站 上 ) ,网 站 的 PR 值 就 越 高 。 例 如 ,ABC. COM 网 站 上 有 一 个 XYZ. COM 
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网 站 的 链接 ,那么 ABC. COM 网 站 必须 提供 一 些 较 好 的 网 站 内 容 , 从 而 Google 会 把 来 自 
XYZ. COM 的 链接 作为 它 对 ABC. COM 网 站 投 的 一 票 。 你 可 以 下 载 和 安装 Google 的 工 
具 条 来 检查 你 的 网 站 级 别 (PR 值 ) 。 


10.4.1 PageRank 网 页 排序 算法 

PageRank 算法 的 基本 思想 来 源 于 “从 许多 优质 网 页 链接 过 来 的 网 页 ,必定 还 是 优质 
网 页 ”这 一 回归 关系 。 网 页 A 链接 到 网 页 B, 就 认为 网 页 A 为 网 页 B 投了 一 票 。 

PageRank 最 初 的 算法 描述 如 下 : 网 页 A 的 PageRank 值 为 

PR(A) = (1 =—4d)++d(PR(T1)/PC(Ti)++:* + PR(T,.)/PC(T,)) (10-1) 

其 中 ,d 为 阻尼 系数 , 且 0 二 d 二 1;T,T,,…,T, 表示 链接 到 A 的 所 有 7? 个 网 页 ; 
PR(T) 表 示 TT 的 PageRank 值 ;PCCT 表示 TT 页 面 上 的 总 链接 数 。 而 用 户 单 击 页 面 
上 链接 的 概率 , 则 由 页 面 上 的 链接 数 确 定 , 即 式 (10-1) 中 的 PR(T)/PC(T1), 阻 尼 系 数 d 
的 引入 是 为 了 降低 这 一 概率 ,因为 用 户 不 可 能 无 限制 地 单 击 链接 ,常常 会 随机 转 到 其 他 
页 面 。 


10.4.2 Topic-Sensitive PageRank 算法 

Topic-Sensitive PageRank 算法 是 PageRank 的 一 个 相关 算法 。 由 于 Internet 上 的 内 
容 千 差 万 别 ,涵盖 众多 不 同 的 领域 和 主题 。 同 样 一 个 查询 主题 词 如 “汽车 ”, 可 能 用 户 Ui 
是 想 买 一 台 汽 车 ,他 感 兴趣 的 是 汽车 品牌 .价格 ;而 用 户 Us 是 想 参加 与 汽车 相关 的 运动 ， 
他 感 兴趣 的 是 与 汽车 相关 的 运动 项 目 和 赛事 。 因 此 要 想 给 用 户 返 回 更 为 准确 的 查询 信息 
就 有 必要 基于 不 同 的 主题 来 对 页 面 排 序 。 最 初 的 PageRank 算法 中 没有 考虑 主题 相关 的 
因素 参与 排序 。 主 题 敏感 PageRank 算法 (topic-sensitive PageRank,TSPR) 正 是 在 这 种 
背景 下 提出 来 的 。 

TSPR 核心 思想 就 是 通过 离线 计算 ,计算 出 一 个 PageRank 向 量 集合 (在 PageRank 
算法 中 , 仅 计 算 一 个 PageRank 向 量 ) ,该 集合 中 的 每 一 个 向 量 与 某 一 主题 相关 , 即 计算 某 
个 页 面 关 于 不 同 主题 的 得 分 。 例 如 某 个 网 页 在 教育 主题 方面 的 得 分 为 a, 在 体育 主题 方 
面 的 得 分 为 6…… 

具体 来 说 ,TSPR 也 可 分 为 两 个 主要 阶段 。 

(1) 主题 相关 的 PageRank 向 量 集合 的 计算 。 先 将 所 有 页 面 的 内 容 划 分 为 16 个 主 
题 ,根据 Crawler 搜集 来 的 网 页 计算 该 网 页 在 不 同 主题 的 得 分 情况 , 即 不 同 的 PageRank 


向 量 。 
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(2) 在 线 查 询 , 主题 确定 。 在 线 查 询 阶 段 , 先 根 据 用 户 的 搜索 请 求 确 定 用 户 的 
Context( 用 9 表示); 然 后 使 用 式 (10-2) 计 算 用 户 的 Context 属于 不 同 主题 cj 的 概率 
P(cld); 最 后 使 用 式 (10-3) 计 算 网 页 的 综合 得 分 Su ,并 根据 该 得 分 进行 页 面 排序 。 式 
(10-3) 中 的 ranke 即 页 面 & 在 主题 cj 的 得 分 情况 。 

Ple; | gq) = P(e) X Plg’ | 6)/P(g’) ec Ple) XxX TlP Co: | (10-2) 


Su 一 >)P(o | gq ) Xx ranky (10-3) 
了 


根据 用 户 的 查询 请 求 和 相关 Context 判断 用 户 查 询 相关 的 主题 ( 即 用 户 的 兴趣 取 
向 ), 从 而 提高 返回 结果 的 准确 性 无 疑 是 一 种 有 效 的 方法 。 

遗憾 的 是 ,TSPR 并 没有 利用 主题 的 相关 性 来 提高 链接 得 分 的 准确 性 。 事 实 上 对 于 
网 页 类 别 的 划分 可 以 更 有 效 地 计算 链接 的 价值 和 权威 性 。 例 如 评阅 论文 时 ,经 常 需要 十 
写 对 相关 领域 的 熟悉 程度 。 也 就 是 说 ,评阅 者 对 论文 所 属 的 领域 越 熟悉 , 则 评阅 者 所 给 出 
的 评分 越 可 信 , 从 而 在 最 后 的 计算 中 拥有 更 高 的 权重 。 

对 于 网 页 之 间 的 链接 分 析 与 上 述 论文 评阅 的 例子 类 似 。 可 以 把 网 页 A 指向 网 页 B 
的 链接 视 为 A 对 也 的 评分 ; 若 A 与 B 的 内 容 是 相近 的 , 则 A 的 评分 更 为 可 信 。 例 如 一 个 
教育 相关 的 网 站 A 指向 另 一 个 教育 相关 的 网 站 B, 则 比 一 个 娱乐 相关 的 网 站 C 指向 教育 
相关 的 网 站 B 更 为 权威 、 可 信 。 


10.4.3 ”Hilltop 算法 

Hilltop 算法 的 指导 思想 与 PageRank 是 一 致 的 , 即 通 过 链接 的 数量 和 质量 来 确定 搜 
索 结 果 的 排序 权重 。 与 PageRank 不 同 的 是 ,在 Hilltop 中 仅 考虑 那些 专家 页 面 C(expert 
sources) , 即 专门 用 于 引导 人 们 浏览 资源 的 页 面 。Hilltop 在 收 到 一 个 查询 请 求 时 ,首先 根 
据 查 询 的 主题 计算 出 一 列 相关 性 最 强 的 专家 页 面 ,然后 根据 指向 目标 页 面 的 非 从 属 专 家 
页 面 的 数量 和 相关 性 来 对 目标 页 面 进行 排序 。 目 标 页 面 的 排序 得 分 反映 了 与 查询 主题 相 
关 的 最 好 的 独立 专家 页 面 的 集体 意见 。 若 在 此 过 程 中 ,Hilltop 无 法 得 到 一 个 足够 大 的 专 
家 页 面 集合 , 则 返回 空 值 。Hilltop 算法 主要 包含 两 个 步骤 。 

(1) 专家 页 面 搜 索 。 所 谓 专家 页 面 ,就 是 关于 某 个 主题 的 包含 着 很 多 非 从 属 页 面 链 
接 的 网 页 。 非 从 属 页 面 是 指 两 个 页 面 分 别 属于 两 个 来 自 非 从 属 组 织 的 作者 。 在 预 处 理 阶 
段 , 由 搜索 引擎 的 Crawler 搜集 来 的 网 页 的 一 个 子 集 被 辨识 为 专家 页 面 集 。 

辨识 专家 页 面 的 关键 主要 有 : 剔除 从 属 页 面 ; @ 选 择 专家 页 面 (Out-Link 大 于 阔 
值 *); @@ 对 专家 页 面 进行 索引 。 
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当 收 到 一 个 查询 时 ,从 专家 页 面 集 中 挑选 出 与 查询 主题 相关 的 专家 页 面子 集 。 

(2) 目标 页 面 排序 。Hilltop 算法 认为 “一 个 目标 页 面 在 某 个 查询 主题 是 权威 的 , 当 
且 仅 当 有 一 些 与 该 查询 主题 相关 的 最 好 的 专家 页 面 指向 该 目标 页 面 ”。 

然而 ,Hilltop 在 应 用 中 还 存在 如 下 一 些 问 题 。 

专家 页 面 的 搜索 和 确定 对 算法 起 关键 作用 ,专家 页 面 的 质量 决定 了 算法 的 准确 性 ;而 
专家 页 面 的 质量 和 公平 性 在 一 定 程度 上 难以 保证 。 同 时 Hilltop 忽略 了 大 多 数 非 专家 页 
面 的 影响 。 在 Hilltop 的 原型 系统 中 ,专家 页 面 只 占 到 整个 页 面 的 1.79%(2.5~140M)， 
在 一 定 程 度 上 并 不 能 很 好 地 反映 整个 Internet 的 民意 。 

Hilltop 算法 在 无 法 得 到 足够 的 专家 页 面子 集 时 (小 于 两 个 专家 页 面 ) ,返回 为 空 , 即 
Hilltop 适合 于 对 查询 排序 进行 求 精 , 而 不 能 覆盖 。 这 意味 着 Hilltop 可 以 与 某 个 页 面 排 
序 算 法 结合 ,提高 精度 ,而 不 适合 作为 一 个 独立 的 页 面 排序 算法 。Hilltop 中 根据 查询 主 
题 从 专家 页 面 集 合 中 选取 与 主题 相关 的 子 集 也 是 在 线 运行 的 ,这 与 前 面 提 到 的 HITS 算 
法 一 样 会 影响 查询 响应 时 间 。 随 着 专家 页 面 集合 的 增 大 ,算法 的 可 伸缩 性 存在 不 足 之 处 。 


10.4.4 HITS 算法 

HITS 算法 是 在 20 世纪 90 年 代 末 提出 的 一 种 链接 分 析 算 法 , 它 将 网 页 的 质量 评估 
结果 反映 在 对 每 个 网 页 给 出 的 两 个 评价 数值 一 一 内 容 权威 度 (authority) 和 链接 权威 度 
(hub) 上。 内 容 权威 度 与 网 页 自身 提供 的 内 容 质 量 相关 ,被 越 多 网 页 所 引用 的 网 页 ,其 内 
容 权威 度 越 高 ;相对 应 地 ,链接 权威 度 与 网 页 提供 的 超 链接 的 质量 相关 ,引用 内 容 质 量 高 
的 越 多 的 网 页 ,其 链接 权威 度 越 高 。 

HITS 算法 的 具体 实现 是 一 个 “迭代 一 收敛 ?过 程 。HITS(Chyperlink-induced topic 
search) 算 法 与 PageRank 算法 是 同期 由 康 奈 尔 大 学 的 Kleinberg 提出 的 , 它 是 一 种 基于 
Web 结构 挖掘 的 算法 。 算 法 认为 网 页 页 面 有 两 个 方面 的 属性 : 一 个 是 权威 性 
(authority) ,被 其 他 网 页 指向 的 属性 ,用 A(T) 表 示 ; 另 一 个 是 中 心性 (hub) ,指向 其 他 网 
页 的 属性 ,用 互 (T) 表 示 。 权 威 性 ACT) 用 指向 自己 的 网 页 T 的 中 心性 五 (T,) 衡 量 ,中 
心性 五 (T) 用 自己 指向 的 网 页 T; 的 权威 性 A(T,) 衡 量 ,a、b 为 自然 数 。 如 下 : 


A(T) = DH(T,) (10-4) 
a=1 


HOT) = AT) (10-5) 
其 中 ,mn 分别 为 对 应 的 网 页 数量 。 由 公式 可 以 得 出 ,权威 性 和 中 心性 是 相互 作用 
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的 ,高 权威 性 网 页 是 由 很 多 高 中 心性 网 页 所 链接 的 ,同时 高 中 心性 网 页 也 必然 链 向 很 多 高 
权威 性 网 页 。 用 户 查 询 过 程 中 ,系统 首先 根据 输入 的 关键 词 得 到 最 相关 的 一 组 网 页 集合 
形成 根 集 , 再 对 其 进行 上 下 扩展 ,增加 它 所 链接 的 和 链 向 它 的 网 页 地 址 。 然 后 通过 根 集 特 
征 与 扩展 集 特 征 的 对 比 , 完 成 对 扩展 集 内 网 页 的 筛选 ,去 掉 不 相关 和 差别 较 大 的 网 页 。 最 
后 计算 扩展 集 内 网 页 的 权威 值 和 中 心 值 , 并 依据 此 值 进行 排序 。 


10.4.5 SALSA 算法 

PageRank 算法 是 基于 用 户 随机 地 向 前 浏览 网 页 的 直觉 知识 , HITS 算法 考虑 的 是 
Authority 网 页 和 Hub 网 页 之 间 的 加 强 关系 。 实 际 应 用 中 ,用 户 大 多 数 情 况 下 是 向 前 浏 
览 网 页 ,但 是 很 多 时 候 也 会 回 退 浏览 网 页 。 基 于 上 述 直觉 知识 ,R. Lempel 和 S. Moran 提 
出 了 SALSA(stochastic approach for link-structure analysis) 算 法 。 该 算法 考虑 了 用 户 回 
退 浏览 网 页 的 情况 ,保留 了 PageRank 的 随机 漫游 和 HITS 中 把 网 页 分 为 Authority 和 
Hub 的 思想 ,取消 了 Authority 与 Hub 之 间 的 相互 加 权 关 系 。 

具体 算法 如 下 : 

(1) 与 HITS 算法 的 第 一 步 一 样 ,得 到 根 集 并 且 扩 展 为 网 页 集合 T, 并 除去 孤立 


(2) 从 集合 工 构 造 无 向 图 G'=(Vi,V,,E): 
Vi = {Si | S € Co oordearee(S) > 0}1(G’ 的 Hub 边 》 (10-6) 
Vs = {S| S € Camaomdegree(S) > 0}(G’ 的 Authority 边 ) (10-7) 
Bs (Sm Sin TT (10-8) 


这 就 定义 了 两 条 链 : Authority 链 和 Hub 链 。 
(3) 定义 两 条 马尔 可 夫 链 的 变化 矩阵 ,也 就 是 随机 和 矩阵, 分别 是 Hub 矩阵 豆 和 
Authority 和 矩阵 4。 


Hi= BD (GV IEFG)1)X1lBCK) (10-9) 
天 ,KEFEGD) 站 FEGO) 
Aijy= 2 GOG/1BG)1)XIFGK) (10-10) 


天 ,KEBGD 站 BO) 
(4) 求 出 矩阵 豆 和 4 的 主 特征 向 量 , 得 到 对 应 马尔 可 夫 链 的 静态 分 布 。 
(5) 4 中 值 大 者 对 应 的 网 页 就 是 所 要 找 的 重要 网 页 。 
SALSA 算法 没有 HITS 中 相互 加 权 的 迭代 过 程 ,计算 量 远 小 于 HITS。SALSA 算 
法 只 考虑 直接 相 邻 的 网 页 对 自身 AH 的 影响 ;而 HITS 是 计算 整个 网 页 集合 对 自身 
AH 的 影响 。 
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试验 结果 表明 ,HITS 算法 结果 集中 于 主题 的 某 个 方面 。 而 SALSA 算法 的 结果 获 盖 
了 多 个 方面 ,也 就 是 说 ,对 于 TKC 现象 ,SALSA 算法 比 HITS 算法 有 更 高 的 健壮 性 。 


10.4.6 BFS 算法 

SALSA 算法 计算 网 页 的 Authority 值 时 ,只 考虑 网 页 在 直接 相 邻 网 页 集中 受 欢 迎 程 
度 ,忽略 了 其 他 网 页 对 它 的 影响 。HITS 算 法 考虑 的 是 整个 图 的 结构 ,特别 地 经 过 nn 步 以 
后 ,网 页 i 的 Authority 的 权重 是 |BFn(i) 1/|1BFn|。BFn(i) 为 离开 网 页 i 的 (BF)n 的 路 
径 数 目 , 即 网 页 /二 二 i, 对 i 的 权 值 贡献 等 于 从 i 到 j 的 (BF)n 路 径 数量 。 如 果 从 i 到 j 包 
含有 一 个 回路 ,那么 7 对 i 的 贡献 将 会 旦 指数 级 增加 ,这 并 不 是 算法 所 希望 的 ,因为 回路 
可 能 不 是 与 查询 相关 的 。 

Allan Borodin 等 人 提出 了 BFS(backward forward step) 算 法 , 它 既 是 SALSA 的 扩 
展 情况 ,也 是 HITS 的 限制 情况 。 其 基本 思想 是 ,SALSA 只 考虑 直接 相 邻 网 页 的 影响 ， 
BFS 扩展 到 考虑 路 径 长 度 为 n 的 相 邻 网 页 的 影响 。 在 BFS 中 ,BFn(i) 被 指定 表示 能 通过 
(BF)n 路 径 到 达 i 的 节点 集合 ,这 样 7 对 i 的 贡献 就 依赖 于 7 到 i 的 距离 。BFS 采用 指数 
级 降低 权 值 的 方式 ,节点 i 的 权 值 计算 如 下 : 

a; = 2"! | BO) |+2"™ | BFG) | 十 2 一 | BFB(D) | 十 … 十 | BFB"(G) | (10-11) 

算法 从 节点 i 开始 ,第 一 步 向 后 访问 ,然后 继续 向 前 或 向 后 访问 邻居 ;每 一 步 遇 到 新 

的 节点 加 入 权 值 计算 ,节点 只 有 在 第 一 次 被 访问 时 加 入 进去 计算 。 


10.4.7 PHITS 算法 
D. Cohn and H. Chang 提出 了 计算 Hub 和 Authority 的 概率 统计 法 PHITS 
(probabilistic analogue of the HITS) 。 在 这 个 模型 中 一 个 潜在 的 因子 或 主题 = 影响 了 文 
档 d 到 < 的 一 个 链接 。PHITS 算法 进一步 假定 ,给 定 因 子 x, 文 档 c 的 条 件 分 布 PCc|z) 存 
在 ,并 且 给 定 文档 d ,因子 x 的 条 件 分 布 P(=|d) 也 存在 。 
Pld,c) = P(d) x P(e | 4d) (10-12) 
其 中 ， 
Plec|d)= DPle |z) XP(z|d) (10-13) 


根据 这 些 条 件 分 布 , 提 出 了 一 个 可 能 性 函数 L: L = 二 || P(d,c)。M 是 对 应 的 连接 


(doOEM 
和 矩阵。 
PHITS 算法 使 用 Dempster 等 人 提出 的 EM 算法 分 配 未 知 的 条 件 概率 ,使 得 工 最 大 
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化 , 即 最 好 地 解释 了 网 页 之 间 的 链接 关系 。 算 法 要 求 因子 = 的 数目 事先 给 定 。 
本 章 小 结 


Web 是 Internet 最 基本 、 最 广泛 的 应 用 服务 ,也 是 最 主要 的 信息 资源 类 型 。 对 于 信息 
用 户 而 言 , 直 接 面 对 的 Web 信息 获取 工具 就 是 网 络 搜索 引擎 ,Google、Baidu 等 搜索 引擎 
是 Web 信息 采集 与 搜索 技术 的 典型 代表 。 搜 索引 擎 (search engine) 是 指 根据 一 定 的 策 
略 .运用 特定 的 计算 机 程序 搜集 互联 网 上 的 信息 ,在 对 信息 进行 组 织 和 处 理 后 ,为 用 户 提 
供 检 索 服务 的 系统 。 

一 般 情 况 下 将 搜索 引擎 分 为 采集 器 .索引 器 、 检 索 器 和 用 户 接口 四 个 部 分 。 通 常 搜 索 
引擎 有 目录 搜索 引擎 .全文 搜索 引擎 .元 搜索 引擎 .集合 式 搜 索引 擎 .垂直 搜索 引擎 。 而 智 
能 搜索 引擎 是 在 传统 搜索 引擎 基本 结构 的 基础 上 ,增加 了 相关 技术 或 者 相关 系统 来 优化 
整个 搜索 引擎 的 综合 检索 系统 ,包括 基于 本 体 的 智能 搜索 引擎 .基于 知识 库 系统 的 智能 搜 
索引 擎 .基于 语义 关联 的 智能 搜索 引擎 等 类 型 。 

搜索 引擎 技术 原理 的 种 类 较 多 ,主要 因 其 应 用 的 信息 采集 算法 原理 和 索引 技术 的 不 
同 而 不 同 。 目 前 ,搜索 引擎 的 主要 支撑 技术 有 分 词 技术 .网 络 蜘蛛 .索引 技术 、. 词 频 相 关 指 
数 .主动 推理 ,本体 知 识 系统 .专家 系统 等 类 型 。 

Web 信息 采集 技术 被 广泛 应 用 于 搜索 引擎 检索 .站 点 结构 分 析 、 页 面 有 效 性 分 析 、 
Web 图 进化 ,内容 安全 检测 .用 户 兴 趣 挖掘 以 及 个 性 化 信息 获取 等 多 种 服务 和 研究 当中 。 
Web 采集 是 从 Web 中 收集 网 页 的 过 程 ,这 些 网 页 用 于 索引 从 而 为 搜索 引擎 提供 支持 。 采 
集 的 目标 是 尽 可 能 高 效 地 采集 更 多 数目 的 有 用 页 面 ,并 同时 获得 连接 这 些 页 面 的 链接 
结构 。 

Web 采集 器 架构 主要 由 五 类 模块 构成 : 待 采 集 URL 池 、DNS 解析 模块 、 抓 取 (fetch) 
模块 ,分 析 (parse) 模 块 .URL 去 重 模块 。 分 布 式 信息 检索 是 指 由 检索 代理 程序 将 检索 任 
务 同 时 提交 给 网 络 上 的 多 个 主机 ,由 位 于 这 些 主 机 上 的 检索 程序 分 别 独立 检索 并 将 检索 
结果 返回 到 检索 代理 程序 ,经 过 整理 后 显示 给 用 户 。 

PageRank 最 早 是 由 斯 坦 福 大 学 的 博士 研究 生 Sergey Brin 和 Lawrence Page 首次 提 
出 的 一 种 算法 , 它 对 网 页 进行 评价 ,为 每 个 网 页 赋予 一 个 衡量 其 重要 性 的 值 ,并 最 后 应 用 
于 检索 结果 的 排序 。PageRank 的 基本 思想 主要 来 自传 统 的 文献 计量 学 中 的 文献 引文 分 
要 的 PageRank 排序 算法 有 PageRank 网 页 排序 算法 、Topic-Sensitive PageRank 
体 演 、 Hilltop 算法 .HITS 算法 .SALSA 算法 .BFS 算法 .PHITS 算法 等 排序 算法 。 


> 


hb, ‘fat 
”~ OO 
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本 章 思考 与 练习 题 


. 举例 说 明 你 是 如 何 使 用 你 所 熟悉 的 一 个 网 络 搜索 引擎 的 。 
. 搜索 引擎 由 哪 几 个 部 分 组 成 ? 

. 通常 搜索 引擎 分 为 哪 几 种 类 型 ? 

. 说 明 元 搜索 引擎 与 垂直 搜索 引擎 的 含义 。 


基于 本 体 的 智能 搜索 引擎 的 主要 结构 模块 有 几 个 部 分 ? 


. 用 图 示 说 明基 于 知识 库 系统 的 智能 搜索 引擎 的 结构 原理 。 
. 说 明基 于 语义 关联 的 智能 搜索 引擎 的 功能 模块 。 

. 说 明基 于 语义 关联 的 智能 搜索 引擎 的 工作 步骤 。 

. 搜索 引擎 有 哪些 主要 支撑 技术 ? 

. 说 明 分 词 技术 的 含义 。 

. 什么 是 网 络 蜂 蛛 ? 

. 索引 技术 的 作用 与 含义 有 哪些 ? 

. 词 频 相 关 指 数 的 含义 有 哪些 ? 

.自动 推理 技术 的 含义 有 哪些 ? 

. 举例 说 明 本 体 知识 系统 的 含义 。 

. 专家 系统 的 内 涵 有 哪些 ? 

.如 何 理解 Web 信息 采集 的 含义 ? 

. Web 信息 采集 器 应 该 提供 哪些 功能 ? 

.Web 采集 器 架构 主要 由 哪 五 类 模块 构成 ? 

. 简 述 URL 的 采集 流程 。 

. 递归 查询 的 含义 有 哪些 ? 

. 举例 说 明 分 布 式 信息 检索 的 含义 。 

. 说 明 Web 图 的 作用 与 意义 。 

. 主要 的 PageRank 排序 算法 有 哪些 ? 简 述 各 自 的 基本 原理 。 


第 三 部 分 
信息 检索 素养 实践 应 用 篇 


对 于 大 学 生 尤 其 是 研究 生 而 言 ,信息 检索 素养 最 直接 的 体现 就 是 服务 于 
他 们 的 自主 学 习 、 协 同学 习 、 研 究 性 学 习 、 探 究 与 发 现 性 学 习 等 主动 性 与 高 层 
次 特征 的 学 习 活 动 及 其 学 习 过 程 。 本 书 第 三 部 分 “信息 检索 素养 实践 应 用 篇 ” 
正 是 基于 这 一 目的 进行 教学 设计 与 内 容 编著 ,内 容 包括 第 11 章 、 第 12 章 和 第 
13 章 , 其 中 包含 了 大 量 丰 富 的 图 例 与 实例 阐述 ,以 便于 学 习 者 结合 自身 的 信 
息 需求 实际 ,理论 联系 实际 ,举一反三 。 第 三 部 分 “信息 检索 素养 实践 应 用 篇 ” 
作为 理论 教学 内 容 的 同时 ,可 以 同 本 课程 实验 与 实践 教学 要 求 相 结合 ,把 信息 
检索 素养 教育 融入 理论 与 实践 相互 贯通 的 教学 实践 过 程 中 。 

互联 网 是 一 个 海量 的 信息 世界 ,各 类 信息 资源 十 分 丰富 ,如 何 快速 准确 地 
在 网 络 上 检索 并 获取 所 需 信息 ,实现 用 户 网 络 信息 需求 的 满足 ,对 于 网 络 化 时 
代 的 每 一 位 网 民 而 言 ,都 是 一 个 非常 重要 的 问题 。 作 为 新 时 代 的 大 学 生 , 应 用 
搜索 引擎 去 充分 发 现 ,认识 查询、 获取 和 有 效 利 用 网 络 信息 ,不 仅 是 大 学 生 信 
息 检索 素养 的 重要 组 成 部 分 ,也 是 开展 自主 学 习 、 协 同学 习 、 探 究 性 与 研究 性 
学 习 的 基础 性 信息 素养 及 其 内 在 要 求 。 作 为 大 学 生 信 息 检索 素养 能 有 落地 生 
根 的 一 个 重要 基础 ,第 11 章 “ 常 用 搜索 引擎 的 检索 应 用 ”详细 阔 述 和 说 明了 百 
度 、 搜 狗 、Google、Infoseek 和 Yahoo! 的 各 种 检索 应 用 ,尤其 是 这 些 引擎 的 高 级 
检索 (或 专业 检索 ) 与 应 用 ,从 而 实现 信息 用 户 对 信息 查 全 率 和 查 准 率 的 更 高 
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对 于 大 学 生 或 科技 工作 者 而 言 , 特 种 信息 资源 是 指出 版 发 行 和 获取 途径 
都 比较 特殊 的 科技 类 信息 资源 ,通常 也 指 的 是 除了 普通 图 书信 息 资源 和 期 刊 
学 术 论 文 信息 资源 之 外 的 特种 科技 信息 资源 。 第 12 章 “ 特 种 信息 资源 检索 ” 
详细 阅 述 了 中 外 重要 的 会 议 文献 信息 资源 .科技 报告 信息 资源 .专利 信息 资 
源 、 学 位 论文 信息 资源 、 标 准 信息 资 源 、 科 技 档 案 信 息 资 源 、 政 府 出 版 物 信 息 资 
源 七 大 类 特种 信息 资源 。 特 种 信息 资源 特色 鲜明 、 内 容 广 泛 、 数 量 庞 大 、 学 习 
与 研究 及 其 参考 价值 高 ,在 整个 信息 资源 检索 及 其 利用 过 程 中 起 着 非常 重要 
的 作用 。 

图 书 与 学 术 期 刊 论文 信息 资源 是 大 学 生 最 主要 的 信息 检索 与 利用 对 象 ， 
也 是 各 个 高 校 图 书馆 投入 资金 比例 最 大 、 收 藏 量 最 丰富 、 占 用 馆藏 最 多 .连续 
性 购买 强度 最 高 并 提供 基础 性 服务 支持 与 保障 最 有 力 的 主要 资源 。 第 13 章 
“图 书 与 学 术 期 刊 论文 信息 资源 检索 ”着重 阐述 了 主要 和 典型 中 外 图 书 与 学 术 
期 刊 论文 信息 资源 检索 与 应 用 。 主 要 和 典型 中 外 图 书 与 学 术 期 刊 论文 信息 资 
源 包括 中 国 国家 图 书馆 联机 公共 目录 查询 系统 .CALIS 联合 目录 公共 检索 系 
统 、 北 京 大 学 图 书馆 公共 查询 系统 、 清 华 大 学 图 书馆 馆藏 目录 检索 系统 、 典 型 
中 文 数字 图 书 检 索 一 一 超星 数字 图 书馆 \CNKI 中 国学 术 期 刊 网 检索 、 维 普 中 
文科 技 期 刊 数据 库 检 索 、CADAL 外 文 图 书 检索 、World eBook Library 检索 、 
ebrary( 电 子 图 书馆 ) 检 索 、OCLC FirstSearch 检索 、Web of Science 数据 库 检 
索 .IEL 数据 库 检 索 .EBSCO 学 术 资 源 平台 检索 、Wiley 在 线 图 书馆 检索 等 。 
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互联 网 是 一 个 海量 的 信息 世界 ,各 类 信息 资源 十 分 丰富 ,如 何 快 速 准确 地 在 网 络 上 检 
索 并 获取 所 需 信息 ,实现 用 户 信息 需求 的 满足 ,对 于 网 络 化 时 代 的 每 一 位 网 民 而 言 , 都 是 
一 个 非常 重要 的 问题 。 作 为 新 时 代 的 大 学 生 , 应 用 搜索 引擎 去 充分 发 现 、 认 识 、 查 询 、 获 取 
和 有 效 利 用 网 络 信息 ,不 仅 是 大 学 生 信息 检索 素养 的 重要 组 成 部 分 ,也 是 开展 自主 学 习 、 
协同 学 习 探究 性 与 研究 性 学 习 的 基础 性 信息 素养 及 其 内 在 要 求 。 

搜索 引擎 (search engine) 是 一 种 网 络 化 信息 检索 系统 与 检索 应 用 工具 ,能 帮助 用 户 
在 浩瀚 的 网 络 资源 环境 中 快速 而 高 效 地 查询 到 所 需要 的 信息 。 搜 索引 擎 是 一 种 能 够 通过 
网 络 接收 用 户 的 查询 指令 ,并 向 用 户 提供 符合 其 查询 要 求 的 信息 资源 网 址 或 资源 路 径 的 
智能 系统 。 在 很 多 搜索 引擎 中 ,利用 在 层次 结构 中 的 不 同 的 高 速 缓存 来 存储 的 一 些 数据 
块 , 这 是 非常 有 用 的 解决 频繁 查询 的 方法 。 

作为 普通 用 户 而 言 , 经 常 接触 到 的 是 网 络 搜索 引擎 的 用 户 检索 交互 界面 。 用 户 检索 
交互 界面 是 搜索 引擎 各 种 检索 实现 功能 在 用 户 接口 层面 的 直接 而 形象 的 表达 ,屏蔽 了 搜 
索引 擎 所 应 用 的 各 种 检索 原理 、 检 索 技 术 与 数学 逻辑 过 程 。 用 户 检索 交互 界面 的 作用 是 
接收 用 户 的 查询 输入 、 显 示 查 询 结 果 、 提 供 相关 反馈 信息 。 用 户 检索 界面 包括 简单 检索 界 
面 和 高 级 检索 界面 两 类 。 简 单 检索 界面 只 提供 用 户 输入 查询 字符 串 的 文本 框 ,高 级 检索 
界面 提供 用 户 按照 各 类 检索 模型 的 查询 机 制 ,常用 的 检索 模型 有 集合 论 模 型 代数 模型 、 
概率 模型 和 混合 模型 等 ,具体 体现 为 逻辑 运算 (与 .或 . 非 等 )、 相 近 关 系 ( 相 邻 .近似 等 ) 、 域 
名 范围 (如 . edu、.com 等 )、 位 置 限定 (如 标题 、 内 容 等 )、 时 间 限 定 或 信息 的 语种 限制 等 。 


11.1 百度 搜索 引擎 的 检索 应 用 


1. 百度 简 述 

百度 这 一 公司 名 称 便 来 自 宋词 “ 众 里 寻 他 千百度 ”。 百 度 公司 会 议 室 名 为 “青玉 案 ”， 
即 是 这 首 词 的 词牌 。 而 * 能 掌 ” 图 标 来 源 于 “猎人 巡 迹 能 爪 ”的 刺激 ,与 李彦宏 博士 的 “分 析 
搜索 技术 ”非常 相似 ,从 而 构成 百度 的 搜索 概念 ,也 最 终 成 为 了 百度 的 公司 图 标 。 由 于 在 
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搜索 引擎 领域 大 都 有 动物 形象 ,如 Sohu 的 狐 .Google 的 狗 , 而 百度 也 便 顺 理 成 章 称 为 能 ， 
百度 能 也 便 成 了 百度 公司 的 形象 物 。 图 11-1 为 百度 引擎 Logo。 

百度 搜索 引擎 是 目前 规模 最 大 .影响 力 最 大 、 00 
最 受 中 文 用 户 欢迎 的 中 文 搜索 引擎 。1999 年 年 000 
底 ,百度 成 立 于 美国 硅谷 , 它 的 创建 者 是 在 美国 硅 Bai du 百度 
谷 有 多 年 成 功 经 验 的 李彦宏 先生 ,2000 年 百度 公 
司 回国 发 展 ,百度 的 起 名 ,来 自 * 众 里 寻 他 千百度 ” 图 11.1 百度 引擎 Logo 
的 灵感 ,寄托 着 百度 公司 对 自身 技术 与 发 展 前 景 
的 信心 ,蕴含 了 “用 户 第 一 "并 提供 高 质量 网 络 信息 搜 索 服务 的 价值 追求 。 

2. 百度 核心 技术 

百度 搜索 引擎 由 四 个 核心 部 分 组 成 : 蜘蛛 程序 .监控 程序 ,索引 数据 库 和 检索 程序 。 
百度 门户 网 站 只 需 将 用 户 查 询 内 容 和 一 些 相关 参数 传递 到 百度 搜索 引擎 服务 器 上 ,后 台 
程序 就 会 自动 工作 并 将 最 终结 果 返 回 给 网 站 。 百 度 搜索 引擎 使 用 了 高 性 能 的 “网 络 赂 蛛 ” 
程序 自动 地 在 互联 网 中 搜索 信息 ,可 定制 .高 扩展 性 的 调度 算法 使 得 搜索 器 能 在 极 短 的 时 
间 内 收集 到 最 大 数量 的 互联 网 信息 。 

百度 搜索 引擎 采用 了 先进 的 “链接 分 析 ”(link analysis) 技 术 ,这 种 技术 将 传统 信息 学 
中 的 引文 索引 技术 同 Web 中 最 基本 的 “超级 链接 分 析 * 技 术 相 结合 ,在 查找 的 准确 性 、 查 
全 率 .更 新 时 间 、 响 应 时 间 等 方面 与 其 他 技术 相 比 都 有 明显 优势。 

同时 ,百度 应 用 内 容 相关 度 评价 技术 ,并 且 运 用 了 中 文智 能 语言 处 理 方法 ,依靠 字 与 
词 的 不 同 切割 方法 ,弥补 了 单纯 依靠 字 或 词 的 引擎 技术 的 固有 缺陷 ,并 且 能 够 在 不 同 的 纺 
码 之 间 转 换 ,这 就 使 得 简体 字 和 繁体 字 的 检索 结果 自然 结合 ,相得益彰 。 

3. 百度 引擎 信息 服务 产品 

1) 最 新 上 线 的 信息 服务 

截止 到 2016 年 4 月 ,最 新 上 线 的 信息 服务 包括 度 秘 、 宝 宝 知道 .百度 优 课 、 百 度 春 华 
APP 推广 .百度 MALL 7 种 信息 服务 产品 , 见 图 11-2。 


新 上 线 E 
回 百度 好 看 [ 百度 广播 开放 平台 vn 百度 VR 社 区 
个 性 化 推荐 全 网 各 点 和 内容 内 容 变现 和 村 毕 管理 文 直 实时 转换 语音 一 vealgf#t 区 
固 柜 志 折 加 本 6 朗 梯 
大 反 通 助力 梧 准 营 锁 可 视 化 H5 页 面料 作 工具 每 个 人 贴心 的 税 书 


图 11-2 截止 到 2016 年 4 月 百度 最 新 上 线 信息 服务 类 型 
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2) 百度 信息 搜索 服务 
百度 信息 搜索 服务 产品 丰富 ,包括 搜索 网 页 .视频 .音乐 新闻、 图 片 .软件 等 18 种 。 
见 图 11-3。 


搜索 服务 

BX| 百度 软件 中 心 仿 网 页 ] 视频 | 滩 百度 一 译 

PC 软件 资源 下 载 ”” 搜 索 海量 网 各 资料 ,资源 搜索 海量 网 络 视频 轻松 解决 语言 差异 困扰 
2 音乐 地 图 新 闻 
多 搜 和 tf 考量 音乐 9 搜索 功能 完备 的 刚 外 地 图 加 搜索 浏览 最 热 新 闻 资 讯 日 上 搜索 少量 网 络 图片 
@ 百度 识 图 加 百度 票务 Loh 百度 音乐 人 回 百 RW 祝 

以 莒 岁 信息， 发 现 更 多 可 能 ! 买 低 价 放心 票 ， 上 百度 票务 发 现 最 好 的 原创 音乐 理财 , 贷款， 保险， 上 百度 财富 

百度 外 卖 百度 学 术 
Wd 在 细 | 卖 订餐 产品 E> Ea 日 提供 海量 中 英文 文献 检索 ! 国 更 aa 
及 栈 党 | 桌面 百度 

Be 课 面 智能 助手 ， 连 接 人 与 服务 

图 11-3 百度 信息 搜索 服务 类 型 
3) 百度 导航 服务 


百度 导航 服务 主要 有 三 类 产品 , 即 hao123、 网 站 导航 和 百度 口碑 (评论 信息 搜索 服 
务 )。 见 图 11-4。 


ww hao123 网 站 导航 四 百度 口 


LA 碑 
网 址 导航 百度 网 址 大 全 传播 最 真实 的 评论 


图 11-4 百度 导航 信息 服务 类 型 


4) 百度 社区 信息 服务 

百度 社区 信息 服务 类 型 丰富 ,包括 百度 文库 .百度 网 盘 .百度 知道 .百度 贴吧 等 23 种 。 
见 图 11-5。 

5) 娱乐 游戏 信息 服务 

娱乐 游戏 信息 服务 产品 包括 91 手 游 .百度 游 戏 、 百 度 应 用 、 百 度 爱 玩 、 百 度 电 视 游戏 
5 种 。 见 图 11-6。 

6) 软件 工具 信息 服务 

软件 工具 信息 服务 包括 百度 传 课 、 百 度 输入 法 、 百 度 浏览 器 等 10 种 。 见 图 11-7。 
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图 难 [i 副 5 
癌 读 、 下 载 ,分享 文档 > 音 记 页 献 网 百科 全 书 

贴 长 0 
目 由 分 训话 题 、 芝 与 讨论 er 己 找 答 村 回答 是 回回 ES Qa So 股票 投资 
西 Re 图 村 四 ei 贺 ta 

实 全 可 信条 的 去 付 工具 电子 地界 ， 网 读 更 方便 让 放行 更 注音 超大 容量 的 免费 云 相遇 
俊 醒 众 出 图 下 EGR 大 百 友 产品 论坛 国 BE 

用 户 | 和 过 中心 纺 语 守 积 务 干 台 互联 网 产品 检 毕 互动 我 的 生活 

百 态 云 百度 乐 彩 ”| 百度 圳 
人 5T 令 安全 可 究 在 st 水 台 加 Ee 图 生计 优 理 商 时 失 枪 
圆 EMALL 站 Sm 百度 优 深 

只 下 是 行 从 的 电 商 平台 最 专业 的 要 孕育 知识 社区 中 4 学 攻 工作 必 备 


图 11-5 百度 社区 信息 服务 类 型 


游戏 娱乐 
| 91 手 游 网 唱 。 百度 源 戏 新 瑟 区 应用 加 百度 爱 玩 
手 区 资讯 、 开 天 、 礼 外、 下载 玩 游戏 、 看 资讯 、 找 同位 轻松 找到 所 震 高 抽 量 应 用 找 昔 戏 ， 就 上 百度 枕 玩 
兴 百度 电视 游戏 
电视 游戏 下 载体 驻 平 名 


图 11-6 娱乐 游戏 信息 服务 


软件 工具 
最 压 业 的 在 线 互动 学 习 工具 在 线 启 本 编辑 工具 边 下 边 看 ,支持 视频 抽 索 百度 音乐 ， 听 到 朴 到 
OO evs Mh 百度 hi 百度 输入 法 网 百度 杀毒 
一 元 迅 撞 、 多 彩 、 简 洁 的 浏览 吕 简单 的 与 好 友 了 天 闪电 输入 ， 更 恒 中 文 更 快 ， 更 安全 
百度 P 填 | 于 百度 五 第 输入 法 
更 快 ， 更 安全 百度 五 匠 绩 入 法 PC 版 


图 11-7 百度 软件 工具 信息 服务 


7) 百度 移动 端 信息 服务 

百度 移动 端 信息 服务 内 容 包括 百度 精米 .百度 理财 .手机 输入 法 .手机 助手 .手机 地 图 
等 12 种 。 见 图 11-8。 

8) 百度 其 他 专题 信息 服务 

百度 其 他 专题 信息 服务 包括 91 门户 .苹果 园 、 安 卓 网 .百度 公益 .百度 营销 大 学 .百度 
认证 等 7 种 。 见 图 11-9 。 
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移动 服务 
百度 粮 米 百度 传 课 百度 手机 输入 法 
目 我 和 9 生活 国 投资 生 钱 ， 随时 交易 国 大 时 随地 学 习 海 时 课程 ! 加 点 划 结 合 ,输入 更 流畅 
要 百度 于 机 浏览 器 缚 百度 于 ju 且 手 多 百度 遍 图 百度 翻译 App 
极 环 浏览 ， 集 海量 应 用 ”最 新 最 全 安 卓 手 机 应 用 好 玩 易 用 至 上 美 图 工具 ”” 交 的 和 上 翻译 专家 
百度 麻 拍 百度 音乐 APP 百度 微 任务 百度 手机 卫士 
画 手机 折 昭 ， 一 键 美丽 回 百度 音乐 , 找 歌 听 歌 ， 一步 到 位 包 和 随时 随地 随手 ， 轻松 购 浇 电 手机 防 吸 责 ， 防 强 扰 
图 11-8 百度 移动 端 信息 服务 
| 其 他 服务 
加 安 卓 网 VO ES 世 0 户 |e | 百度 营销 大 学 
安 卓 资 讯 、 资 源 及 论坛 关注 公车， 贡献 力量 移动 互联 网 媒体 平台 互联 网 营销 学 习 平台 
百度 认证 百度 营销 研究 院 百度 预测 
名 互联 网 营销 职业 认证 回 让 商业 决策 更 简单 名 大 数据 ， 知 天 下 


图 11-9 百度 其 他 专题 信息 服务 


4. 百度 网 页 搜索 

1) 百度 快照 

如 果 无 法 打开 某 个 搜索 结果 ,或 者 打开 速度 特别 慢 , 该 怎么 办 ?“ 百 度 快照 ”能 帮 您 解 
决 问题 。 每 个 未 被 禁止 搜索 的 网 页 ,在 百度 上 都 会 自动 生成 临时 缓存 页 面 , 称 为 “百度 快 
照 ”。 图 11-10 是 输入 检索 词 “ 云 计算 ”后 的 结果 实例 。 


Bai 好 下 斌 云 计 算 - 百度 一 T 
人 相符。 去 计算 是 什么 意思 。 云 汁 算 科 台 撕 建 ” 云 计算 的 应 用 实例 云 计 算 拉 本 
中 国 云 计算 - 云 计算 资料 和 交流 中 心 


Mt Mt 


; 服务 等 。 本 站 是 资源 丰富 、 分 析 
hinacjoud.th。。 www chinacloud cn/ ~ - 百度 快照 -评价 


| 
百度 快照 


图 11-10 输入 检索 词 “ 云 计算 ”后 的 结果 实例 


本 站 由 中 国 云 计 算 专家 委员 会 委员 刘 鹏 教授 主办 。 包 括 云 计算 概念 、 
Qt6 搬 计算 技术 、 云 计算 应 用 、 云 计算 学 习 、 云 计算 机 、 云 存 备 、 云 支 全 、 


当 您 遇 到 网 站 服务 器 暂时 故障 或 网 络 传输 堵塞 时 ,可 以 通过 ”快照 "快速 浏览 页 面 文 
本 内 容 。 百 度 快照 只 会 临时 缓存 网 页 的 文本 内 容 , 所 以 那些 图 片 . 音 乐 等 非 文 本 信息 , 仍 
是 存储 于 原 网 页 。 
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当 原 网 页 进行 了 修改 删除 或 者 屏蔽 后 ,百度 搜索 引擎 会 根据 技术 安排 自动 修改 、 删 


除 或 者 屏蔽 相应 的 网 页 快照 。 


2) 拼音 输入 替代 汉字 
在 不 知道 汉字 的 情况 下 ,输入 拼音 可 以 吗 ? 如 果 只 知道 某 个 词 的 发 音 , 却 不 知道 怎么 


写 ,或 者 嫌 某 个 词 拼写 输入 太 麻 烦 , 该 怎么 办 ? 百度 拼音 提示 能 帮 您 解决 问题 。 

只 要 输入 查询 词 的 汉语 拼音 ,百度 就 能 把 最 符合 要 求 的 对 应 汉字 提示 出 来 。 它 事实 
上 是 一 个 无 比 强大 的 拼音 输入 法 , 拼音 提示 显示 在 搜索 结果 上 方 。 例 如 ,输入 
“zhurongji”, 提 示 如 下 : 您 要 找 的 是 不 是 : 朱 馆 基 , 检 索 结果 如 图 11-11 所 示 。 


6 
) 
Bai 人 0 百度 zhurongi 


网 页 新闻 贴吧 知道 音乐 ”图片 


百度 为 您 找 如 MB 关 结 果 约 24.000 个 


加 仿 要 找 的 是 不 是 : 朱 边 基 


图 11-11 拼音 输入 将 代 汉字 的 检索 实例 


3) 相关 搜索 
搜索 结果 不 佳 , 有 时 候 是 因为 选择 的 查询 词 不 是 很 妥当 。 您 可 以 通过 参考 别人 


是 怎么 搜 的 来 获得 一 些 启发 。 百 度 的 “相关 搜索 ”, 就 是 和 您 的 搜索 很 相似 的 一 系列 
查询 词 。 

百度 相关 搜索 排 布 在 搜索 结果 页 的 下 方 , 按 搜索 热门 度 排序 。 单 击 这 些 词 , 可 以 直接 
获得 它们 的 搜索 结果 ,图 11-12 是 “无 人 机 ”的 相关 搜索 。 


去 无 人 机 吧 讨 论 
相关 搜索 


图 11-12 “无 人 机 ”的 相关 检索 实例 


4) 错别字 校正 
由 于 汉字 输入 法 的 局 限 性 ,我 们 在 检索 时 经 常会 输入 一 些 错别字 ,导致 搜索 结果 不 


佳 。 百 度 会 给 出 错别字 纠正 提示 ,并 且 给 出 正常 结果 。 错 别 字 提示 显示 在 搜索 结果 上 方 。 
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例如 ,输入 “ 唐 醋 排骨 ”, 提 示 如 下 : 您 要 找 的 是 不 是 : 糖 栈 排骨 ,结果 实例 如 图 11-13 
所 示 。 


96 
Bai 人 百度 让 栈 排骨 国 se 


网 页 新 闻 贴吧 知道 音乐 图 片 视频 地 图 文库 更 多 » 


百度 为 您 找到 相关 洁 果 约 515,000 搜索 工具 
全 您 要 找 的 是 不 是 : 糖 厂 排骨 


糖 酷 排骨 的 做 法 “美食 天 下 


A 主 料 ; 小 排 
辅料 ， 料 酒 生 抽 老 抽 香 醋 糖 盐 味精 芝麻 
1 小 排 500 克 类 水 后 ， 意 三 十 分 钟 ， 肉 汤 可 以 者 面条 ， 别 倒 掉 了 。2 用 一 汤匙 料 
酒 ， 一 汤匙 生 抽 ， 半 汤匙 者 抽 ， 二 汤匙 香 栈 〈 不 是 白醋 ) 腌渍 20 分 


其 他 优质 结果 ， 


图 11-13 错别字 “ 唐 醋 排骨 ”自动 校正 的 搜索 结果 实例 


5) 网 页 搜索 中 的 英汉 互 译 词典 

百度 网 页 搜索 内 骨 英 汉 互 译 词典 功能 。 如 果 想 查询 英文 单词 或 词组 的 解释 ,您 可 以 
在 搜索 框 中 输入 想 查 询 的 “英文 单词 或 词组 ”十 “是 什么 意思 ”, 搜 索 结果 第 一 条 就 是 英汉 
词典 的 解释 ,例如 ,retrival 是 什么 意思 (如 图 11-14 所 示 ); 如 果 您 想 查 询 某 个 汉字 或 词语 
的 英文 翻译 ,您 可 以 在 搜索 框 中 输入 想 查 询 的 “汉字 或 词语 ”十 “的 英语 ” ,搜索 结果 第 一 条 
就 是 汉 英 词典 的 解释 ,例如 , 龙 的 英语 。 另 外 也 可 以 通过 选择 搜索 框 左下 方 的 “百度 翻译 ” 
链接 fanyi. baidu. com, 到 百度 词典 中 查看 想 要 的 词典 解释 。 


. 
Bai 人 百度 retrival 是 什么 意思 x Es 


网 页 ”新闻 贴吧 知道 音乐 图 片 视频 地 图 文库 更 多 » 


= 4600 控 索 工 后 | 
retrival 百度 翻译 

retrival * 

同 洛 。 检索 ;再 现 ; 调 闻 
村 


fanyibaidu.com ~ 


图 11-14 百度 英汉 互 译 的 检索 实例 
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6) 计算 器 和 度量 衡 转 换 

Windows 系统 自 带 的 计算 器 功能 过 于 简陋 ,尤其 是 无 法 处 理 一 个 复杂 计算 式 , 很 不 
方便 。 而 百度 网 页 搜索 内 符 的 计算 器 功能 , 则 能 快速 高 效 地 解决 信息 搜索 过 程 中 的 计算 
需求 。 只 需 简单 地 在 搜索 框 内 输入 计算 式 , 回 车 即 可 。 较 为 复杂 计算 式 : log((sin(5))^ 
2) 一 3 十 pi 的 结果 如 图 11-15 所 示 。 


而 本 
Bai 个 百度 | iog(sin(5)x2)3+pi 


网 页 “新闻 贴吧 知道 音乐 图 片 视频 ”地 图 文库 更 多 


和 交 到 三 关 营 果 的 2.140,000 提 索 工 只 
计算 器 
log(sin(5)A2)-3+pi = 0.1051612789959 
可 进行 加 (+)、 减 (-)、 乘 (*)、 除 (/) 、 百 分 数 ( %) "等 算术 计算 
| 可 展开 科学 计算 器 


图 11-15 百度 计算 器 的 复杂 计算 实例 图 


百度 计算 器 支持 实数 范围 内 的 计算 ,支持 的 运算 包括 加 法 (十 ) ,减法 (一 )、 乘 法 (x 或 
X)、 除 法 (/)、 圭 运算 (^、 阶 乘 (!) 。 支 持 的 函数 包括 正弦 .余弦 、 正 切 , 对 数 。 同 时 支持 上 
述 运算 的 混合 运算 。 

例如 ,加 法 : 3 十 2, 减 法 : 3 一 2, 乘 法 : 3 * 2, 除 法 : 3/2, 阶 乘 : 41(4 的 阶乘 ) ,平方 ， 
4^2(4 的 平方 ) ,立方 : 4^3(4 的 立方 ) ,开平 方 : 4^1/2)(4 的 平方 根 ), 开 立方 : 4^(1/3)(4 
的 立方 根 ) ,倒数 : 1/4(4 的 倒数 ) , 寡 运 算 : 2%8(2 的 8 次 方 ) ,常用 对 数 : log(8)( 以 10 为 
底 8 的 对 数 ) ,以 自然 底数 为 底 的 对 数 : lIn(8) (以 。 为 底 8 的 对 数 ) , 求 弧度 的 正弦 ， 
sin(10) (10 弧度 角 正 弦 值 ) , 求 弧度 的 余弦 : cos(10)(10 弧度 角 余 弦 值 ), 求 弧度 的 正切 ， 
tan(10)(10 弧度 角 正 切 值 ) ,上 述 运算 的 混合 运算 : log((5 十 5)^2) 一 3 十 pi, 圆 周 率 pi 一 
3. 141 592 65 自然 底数 e 王 2.718281 83。 

度量 衡 换算 。 百 度 支 持 常 用 的 度量 衡 换算 。 方 法 是 在 搜索 栏 或 者 计算 框 内 输入 如 下 
格式 表达 式 : 换算 数量 换算 前 单位 =? 换算 后 单位 。 例 如 *5 公斤 二 ”毫克 ”的 检索 结果 
如 图 11-16 所 示 。 

图 11-16 中 显示 “度量 衡 换算 ?包括 质量 ,长度 ,面积 体积 温度 .压力 、 功 率 、 功 能 / 热 
的 换算 。 

7) 专业 文档 搜索 

很 多 有 价值 的 资料 ,在 互联 网 上 并 非 是 普通 的 网 页 ,而 是 以 Word、PDF、PowerPoint 
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00 
Bai 交 百度 5 公斤 等 于 多 少 总 克 


网 页 “新闻 贴吧 知道 音乐 图片 ”视频 地 图 文库 更 多 » 


百度 为 您 找到 相关 结果 约 6,040,000 搜索 工具 


质量 ”长度 面积 体积 温度 压力 功率 功能 由 > 


5 | 千克 kg) ”| 与 | 毫克 (mg) ~ 


5 公斤 (kg)=5000000 毫 克 (mg) 


国际 单位 : 千克 (kg) 


图 11-16 百度 度量 转换 的 搜索 结果 实例 


等 格式 的 信息 格式 存在 。 百 度 支 持 对 Office 文档 (包括 Word、 Excel、 PowerPoint)、 
Adobe PDF 文档 和 RTF 文档 的 全 文 搜索 。 

(1) 直接 搜索 指定 文档 资料 。 要 搜索 这 类 文档 很 简单 ,在 普通 的 查询 词 后 面 加 一 个 
“filetype: ”文档 类 型 限定 。“Filetype:” 后 可 以 跟 以 下 文件 格式 : DOC、XLS、PPT、PDF、 
RTF、ALL。 其 中 ,ALL 表示 搜索 所 有 这 些 文件 类 型 。 例 如 ,查找 经 济 学 家 樊纲 先生 关于 
收入 差距 方面 的 DOC 资料 。 输 入 “ 罗 纲 收入 差距 filetype: doc”, 单 击 结果 标题 ,直接 下 
载 该 文档 。 见 图 11-17。 


樊纲 收入 差距 filetype : doc 


年 遇 新 8 上 可 纲 几 入 状 红 
扫 供 2013 各 各 新 时 尾 热 点 ， 美 骨 收 入 状 曰 过 大 后 导 团 字 
启 仓 乞 员 移 考 斌 面试 次 村 2013 年 最 条 对 仅 热 点 ， 届 亲族 入 营 王 过 大 号 
www wenkundazal corydocja4e6bb7d852456fb770b566a html = 2015-6-16 


图 11-17 直接 搜索 指定 文档 资料 实例 


(2) 通过 文档 搜索 查找 。 可 以 通过 百度 文档 搜索 界面 (http://file. baidu. com/), 直 
接 使 用 专业 文档 搜索 功能 。 

(3) 查找 论文 网 站 。 网 上 有 很 多 收集 论文 的 网 站 。 先 通过 搜索 引擎 找到 这 些 网 站 ， 
然后 再 在 这 些 网 站 上 查找 自己 需要 的 资料 ,这 是 一 种 方案 。 找 这 类 网 站 ,简单 地 用 “论文 ” 
做 关键 词 进 行 搜索 即 可 。 例 如 ,论文 。 


362 /大 学 生 信息 检索 素养 教程 


(4) 直接 找 特定 论文 。 除 了 找 论文 网 站 外 ,也 可 以 直接 搜索 某 个 专题 的 论文 。 一 般 
的 论文 结构 都 有 一 定 的 规范 格式 ,除了 标题 正文、 附录 外 ,还 需要 有 论文 关键 词 .论文 摘 
要 等 。 其 中 ,“ 关 键 词 " 和 “摘要 ”是 论文 的 特征 词汇 ,而 论文 主题 通常 会 出 现在 网 页 标题 
中 。 例 如 ,intitle: 数 据 挖掘 ,表示 需要 查询 “数据 挖掘 ”方面 的 论文 信息 ,“ 数 据 挖掘 ”在 论 
文中 的 关键 词 .摘要 和 标题 中 均 出 现 。 

(5) 百度 学 术 搜 索 。 如 果 需 要 搜索 专业 的 学 术 论 文 ,可 以 选择 百度 学 术 搜 索 (xuesu. 
baidu. com) 。 百 度 学 术 搜索 主 界面 和 高 级 搜索 分 别 见 图 11-18 和 图 11-19。 


Bai 交 学 


图 11-18 百度 学 术 搜索 主 界面 


Bai 凶 sr 
CES 


包 合 全 部 检索 词 
包含 精确 检索 词 
出 现 检索 词 的 位 置 | 文章 任何 位 置 ~ 


图 11-19 百度 学 术 搜 索 的 高 级 搜索 


通过 “百度 学 术 ” 高 级 搜索 界面 设置 更 精准 的 检索 词 与 检索 项 ,以 满足 所 需要 的 学 术 
文档 检索 。 包 括 对 检索 词 的 一 些 限定 要 求 : 包含 全 部 检索 词 、 包 含 精确 检索 词 、 检 索 词 在 
文档 中 的 位 置 (标题 中 、 摘 要 中 、 正 文中 等 )、 作 者 、 出 版 物 .发 布 时 间 等 约束 。 

8) 多 个 检索 词组 合 搜 索 

输入 多 个 检索 词语 搜索 ,需要 在 不 同 字 词 之 间 用 一 个 空格 隔 开 ,可 以 获得 更 精确 的 搜 


第 11 章 常用 搜索 引擎 的 检索 应 用 / 363 


索 结 果 。 例 如 , 想 了 解 上 海 人 民 公 园 的 相关 信息 ,在 搜索 框 中 输入 "上 海 人 民 公 园 ? 获 得 
的 搜索 效果 会 比 输入 “人民 公 园 ? 的 检索 结果 更 好 。 见 图 11-20。 


输入 多 个 搜索 关键 司 


点 击 技 钮 得 到 搜索 结果 
| 上海 人 民 公园 


百度 一 下 


图 11-20 多 个 检索 词组 合 检索 实例 
F 运 用 “搜索 框 提示 ” 


9) 善 了 


百度 会 根据 用 户 的 输入 内 容 , 在 搜索 框 下 方 实时 展示 “最 符合 的 检索 提示 词 ”。 只 需 
用 鼠标 单 击 需 要 的 提示 词 ,或 者 用 键盘 上 下 键 选择 想 要 的 提示 词 并 按 回 车 ,就 会 返回 该 检 
索 词 的 查询 结果 。 不 必 再 费力 地 敲打 键盘 即 可 轻松 地 完成 查询 。 

输入 拼音 或 汉字 ,百度 会 给 出 最 符合 要 求 的 提示 。 例 如 输入 "moshou”, 搜 索 框 提示 
中 会 显示 "魔兽 世界 "“ 魔 兽 秘 籍 ” 等 (如 图 11-21 所 示 ) ;输入 "kaix”, 搜 索 框 提示 中 会 显示 
“开心 网 ”“ 开 心 农 场 ”" 等 ;输入 “百度 ”, 搜 索 框 提示 中 会 显示 “百度 地 图 ”“ 百 度 空间 ”等 。 


Ba 首相 | mw | ET 

丙 首 也 

磺 曾 争 荔 3 冰 封 王座 下 线 

高 兽 地 图 

磺 兽 入 入 

TT 

图 11-21 百度 搜索 框 提示 的 检索 应 用 实例 
默认 情况 下 ,在 百度 主页 和 搜索 结果 页 上 方 的 搜索 框 都 会 显示 “搜索 框 提示 ”。 如 果 
用 户 不 希望 显示 搜索 框 提示 ,可 以 在 搜索 框 右 侧 “ 设 管 ”列表 选择 “搜索 设置 "(如 图 11-22 
所 示 ) 的 “搜索 框 提示 ”中 选择 “不 显示 ”来 关闭 搜索 框 提示 功能 。 关 闭 之 后 还 可 以 在 搜索 
框 右 侧 设置 的 “搜索 框 提示 ”中 选择 显示 ?来 重新 开启 它 。 
bs 党 moshou | aa | 
王 添 是 十 寺 醚 三 茵 粹 


一 ， 


图 11-22 百度 搜索 设置 


显示 搜索 框 提 示 时 ,会 默认 屏蔽 用 户 浏览 器 的 搜索 框 历史 提示 功能 。 如 果 您 想 恢复 
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浏览 器 的 搜索 框 历史 提示 功能 ,请 在 搜索 框 右 侧 设置 的 “搜索 框 提 示 ” 中 选择 “不 显示 ”( 如 
图 11-23 所 示 )。 


忆 搜索 设置 。 庆 革 而 8 号 自用 了 coolie， 否则 无 寺 使 用 失 过 设 


:是否 祖 户 在 搜索 时 显示 搜索 椎 提 示 
搜索 语言 范围 : 设 定 念 所 要 搜索 的 癌 页 内 容 的 语言 合 全 部 请 言 全 仅 简体 中 文 四 仅 毗 体 中 文 
搜索 结果 显示 条 数 : 设 定 您 杀 望 搜索 结果 显示 的 条 数 兹 页 显示 10 条 ，| 百 本 的 原始 设 定 10 条 最 有 效 且 快 天 
输入 法 : 设 定 在 百度 接 索 页 面 的 输入 法 关闭 
实时 预 到 功能 是 否 新 户 在 你 输入 时 实时 早 取 所 过 结果 开 自 
搜索 历史 记录 : 是 否 宁 望 在 扫 索 时 显示 您 的 搜索 历史 全 8 示 目 不 具 示 


EE 入 要 暴 认 


图 11-23 百度 搜索 框 提示 的 个 性 化 设置 


5. 百度 高 级 搜索 和 个 性 设置 

1) 高 级 搜索 和 个 性 设置 

可 以 根据 用 户 自己 的 检索 习惯 ,在 搜索 框 右 侧 的 “设置 ”中 ,改变 百度 默认 的 搜索 设 
定 。 例 如 搜索 框 提 示 的 设置 .搜索 结果 的 每 页 显示 数量 等 。 百 度 高 级 搜索 界面 见 
图 11-24。 


起 党 结果 : 笠 会 以 下 全 部 的 闪光 河 


各 会 以 下 的 址 要 关键 调 : 


蕊 全 以 下 在 并 一 个 关键 词 


不 包括 六 下 关键 词 
对 间 。 捅 之 要 过 家 的 网 页 的 时间 是 全 部 时 间 国 | 

文 站 交 式 : 痊 守 网 基 谷 式 二 所 有 网 页 和 文件 回 

所 有 网 页 和 文件 
关 杀 洁 位 置 。 三 专 关 兰 司 他 于 Adcbe Acrobat PDF Lpdf) 村 得 二 ”全 议 在 网 太 的 URL 字 

车 苗 Word (doa [一 

等 内 赴 案 。 际 之 要 控 写 指 之 的 网 区 是 类 次 Exoel (xls) 鲁 姑 : baidu com 
RTF 文件 《zt 
新 有 准 羡 


11-24 百度 高 级 搜索 界面 


当 用 户 在 检索 复杂 信息 需求 主题 并 面临 多 个 检索 词 时 ,需要 确定 各 个 检索 词 之 间 的 
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相互 逻辑 关系 和 检索 时 对 每 个 检索 词 的 搜索 结果 限定 要 求 。 

(1) 搜索 结果 的 逻辑 组 配 关 系 : 包含 以 下 的 全 部 关键 词 ( 例 如 ,扩大 内 需 与 收入 差距 
的 关系 ) ,包含 以 下 完整 关键 词 (例如 ,“ 大 学 生 就 业 政策 ”) ,包含 以 下 任意 关键 词 ( 例 如 , 节 
能 环保 低 碳 生活 ) ,不 包括 以 下 关键 词 (例如 ,新 能 源 -核能 ) 。 

(2) 检索 结果 的 时 间 限 定 : 把 搜索 结果 的 网 页 限定 在 全 部 时 间 ( 默 认 )、 最 近 一 天 、 最 
近 一 周 、 最 近 一 月 或 最 近 一 年 。 

(3) 文档 格式 : 所 有 网 页 与 文件 (默认 )、. PDF、. doc、. xls、. ppt、. rtf 或 所 有 格式 的 
文档 。 

(4) 关键 词 的 位 置 设 定 : 指定 查询 的 关键 词 位 于 网 页 任何 地 方 、 仅 在 网 页 的 标题 中 或 
仅 在 网 页 的 URL 中 。 

(5) 站 内 搜索 : 限定 要 搜索 的 内 容 在 指定 的 网 站 ,例如 ,www. sina. com. cn。 

2) 高 级 搜索 语法 运用 

高 级 搜索 语法 的 掌握 与 合理 运用 ,对 于 大 学 生 而 言 能 够 摆脱 “初级 傻瓜 式 检 索 ” 
所 带 来 的 大 量 检索 结果 输出 的 信息 筛选 槛 粹 或 评价 困惑 ,能 够 提高 网 络 信息 检 索 的 
质量 。 

(1) intitle 语法 运用 。 把 搜索 范围 限定 在 网 页 标题 中 即 intitle 语法 运用 。 

网 页 标题 通常 是 对 网 页 内 容 提 纲 故 领 式 的 归纳 。 把 查询 内 容 范 围 限 定 在 网 页 标题 
中 ,有 时 能 获得 良好 的 效果 。 使 用 的 方式 是 把 查询 内 容 中 特别 关键 的 部 分 用 “intitle:” 连 
起 来 。 

例如 , 找 林青霞 的 写真 , 则 查询 式 为 : 写真 intitle: 林青霞 。“intitle:” 和 后 面 的 关键 
词 之 间 不 要 有 空格 。 

(2) site 语法 运用 。 把 搜索 范围 限定 在 特定 网 站 中 即 site 语法 运用 。 

有 时 候 , 如 果 知 道 某 个 站 点 中 有 自己 需要 找 的 信息 对 象 ,就 可 以 把 搜索 范围 限定 在 这 
个 站 点 中 ,以 提高 查询 效率 。 使 用 的 方式 是 在 查询 内 容 的 后 面 加 上 ”site: 站 点 域名 ”。 

例如 天 空 网 的 下 载 软件 不 错 , 则 检索 式 为 : 3D MAXs site: skycn. com。 注 意 "site:” 
后 面 跟 的 站 点 域名 不 要 带 “http://”; 另 外 ,“site:” 和 站 点 名 之 间 不 要 带 空 格 。 

(3) inurl 语法 运用 。 把 搜索 范围 限定 在 url 链接 中 即 inurl 语法 运用 。 

网 页 url 中 的 某 些 信息 常常 有 某 种 有 价值 的 含义 。 如 果 对 搜索 结果 的 url 做 某 种 限 
定 , 就 可 以 获得 良好 的 查询 效果 。 实 现 的 方式 是 用 “inurl:”, 后 跟 需 要 在 url 中 出 现 的 查 
询 关 键 词 。 

例如 查询 关于 Unity3D 游戏 编程 方面 的 信息 , 则 查询 式 为 : Unity3D inurl: youxi。 
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查询 式 中 的 "Unity3D? 是 可 以 出 现在 网 页 的 任何 位 置 的 ,而 “youxi" 则 必须 出 现在 网 页 url 
中 。 注 意 ,“inurl: ”语法 和 后 面 所 跟 的 关键 词 不 要 有 空格 。 检 索 实例 如 图 11-25 所 示 。 


Bai 人 百度 Unity3D inurtyouxi 


Unity3d 案 个 iy 案 例 , 游 戏 案例 -Uni 冯 
提供 Unity3D 及 游戏 制作 相关 的 案例 ,包括 游戏 案例 展示 、 行 业 案例 展示 
等 相关 案例 。Uinty 之 家 专注 Unity3D 开 发 及 游戏 开发, 做 最 全 的 Unity3D 
和 游戏 开发 技术 资源 网 站 。 
unityjb51.neticase/yo.， ~ -百度 快照 -79% 好 评 


图 11-25 inurl 语法 应 用 实例 


(4) 精确 匹配 运算 符 。 精 确 匹 配 符 为 双 引 号 和 书 名 号 。 

如 果 输 入 的 查询 词 很 长 ,百度 在 经 过 分 析 后 ,给 出 的 搜索 结果 中 的 查询 词 可 能 是 拆 分 
的 。 如 果 用 户 对 搜索 结果 不 满意 ,可 以 尝试 让 百度 不 拆 分 查询 词 。 给 查询 词 加 上 双 引 号 ， 
就 可 以 达到 这 种 效果 。 

例如 搜索 中 国 地 质 博物 馆 , 如 果 不 加 双 引 号 ,搜索 结果 被 拆 分 , 则 返回 的 效果 不 是 很 
理想 。 但 是 加 上 双 引 号 后 即 “ 中 国 地 质 博物 馆 ”, 则 获得 的 返回 结果 全 部 符合 要 求 。 

书 名 号 是 百度 独 有 的 一 个 特殊 查询 语法 。 在 其 他 搜索 引擎 中 , 书 名 号 会 被 忽略 ,而 在 
百度 检索 过 程 中 中 文书 名 号 是 可 被 查询 的 。 加 上 书 名 号 的 查询 词 有 两 层 特殊 功能 : 一 是 
书 名 号 会 出 现在 搜索 结果 中 ,二 是 被 书 名 号 扩 起 来 的 内 容 不 会 被 拆 分 。 书 名 号 在 某 些 情 
况 下 特别 有 效 。 例 如 查询 的 名 字 很 通俗 和 常用 的 那些 电影 或 者 小 说 ,可 能 会 出 现 歧义 。 
比如 查询 电影 “手机 ”, 如 果 不 加 书 名 号 ,很 多 情况 下 出 来 的 是 通信 工具 的 “手机 ”含义 ,而 
加 上 书 名 号 《手机 》 后 返回 的 结果 就 都 是 关于 电影 方面 的 信息 。 

(5) 排除 语法 。 排 除 语法 就 是 要 在 返回 结果 中 去 除 不 需要 的 部 分 , 即 “ 一 ”号 运算 符 
应 用 。 
排除 语法 的 目的 是 要 求 搜索 结果 中 不 含 特定 查询 词 。 如 果 发 现 搜索 结果 中 有 某 一 类 
网 页 是 用 户 不 希望 看 见 的 ,而 且 这 些 网 页 都 包含 特定 的 关键 词 ,那么 用 减 号 语法 就 可 以 去 
除 所 有 这 些 含 有 特定 关键 词 的 网 页 。 

例如 查询 神 雕 侠 侣 ,希望 是 关于 电视 剧 方面 的 信息 内 容 , 却 发 现 很 多 关于 游戏 方面 的 
网 页 。 那 么 就 需要 的 查询 式 为 : 神 雕 全 但 -游戏 。 注 意 前 一 个 关键 词 和 减 号 之 间 必 须 有 空 
格 , 否 则 减 号 会 被 当成 连 字 符 处 理 , 而 失去 减 号 语法 的 搜索 功能 。 减 号 和 后 一 个 关键 词 之 
间 有 无 空格 均 可 ,检索 实例 如 图 11-26 所 示 。 


度 神 卫 侠 但 -游戏 
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网 要 寺内 。 基 吧 区间 三 乐 亚 片 起 有 关 国 文宣。 至 多» 


委 卫 二 呈 


神 肉 侠 但 (2014)- 神 肤 侠 但 (2014) 全 集 (1-52 全 )- 神 峙 癸 但 (. 
_ 搜 狐 视频 


图 11-26 排除 语法 应 用 实例 


6. 百度 引擎 的 常用 检索 技巧 
1) 查询 词 的 恰当 选择 
搜索 信息 最 基本 同时 也 是 最 有 效 的 就 是 选择 合适 的 查询 词 。 选 择 查 询 词 是 一 种 专业 


知识 与 个 人 经 验 的 积累 ,在 一 定 程度 上 也 有 章 可 循 。 


(1) 表述 准确 


百度 会 严格 按照 用 户 提 交 的 查询 词 去 搜索 ,因此 查询 词 表述 准确 是 获得 良好 搜索 结 
果 的 必要 前 提 。 一 类 常见 的 表述 不 准确 情况 是 心里 想 着 一 回 事 , 但 是 搜索 框 里 输入 的 检 
索 词 是 另 一 回 事 。 例 如 ,要 查找 2015 年 国内 十 大 新 闻 ,查询 词 可 以 是 “2015 年 国内 十 大 
新 闻 ”; 但 如 果 把 查询 词 换 成 “2015 年 国内 十 大 事件 ,搜索 结果 就 不 能 满足 原来 的 信息 


另 一 类 典型 的 表述 不 准确 是 查询 词 中 包含 错别字 。 例 如 要 查找 林心如 的 写真 图 片 ， 
用 “林心如 写真 ”当然 是 没什么 问题 ;但 如 果 写 错 了 字 , 变 成 “ 林 心 茹 写真 ”, 搜 索 结果 质量 
就 差 得 远 了 。 不 过 百度 对 于 用 户 常见 的 错别字 输入 ,有 纠 错 提示 。 您 车 输入 “ 林 心 妆 写 
真 ”, 在 搜索 结果 上 方 ,会 提示 “您 要 找 的 是 不 是 : 林心如 写真 "如 图 11-27 所 示 )。 


Bal EE [Wi 


9 


千 下 搜 的 是 不 是 : 款 心 如 写真 


林心如 写真 海量 精 选 高 清 图 片 百度 图 片 


补 心 知 : 全 琵 。 瑟 下 。 生 村 天、 芝 业 。 生 送 驾 、 竺 下 。 计 类 ”信守 广告 ” 妨 读 。 里 委 


图 11-27 检索 词 表述 不 准确 的 应 用 实例 


(2) 查询 词 的 主题 关联 与 简练 


目前 的 搜索 引擎 并 不 能 很 好 地 处 理 自然 语言 。 


因此 在 提交 搜索 请 求 时 ,用 户 最 好 把 


自己 的 想法 提炼 成 简单 的 而 且 与 希望 找到 的 信息 主题 关联 的 查询 词 。 例 如 , 某 三 年 级 小 
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学 生 , 想 查 一 些 关 于 时 间 的 名 人 名 言 ,如 果 查 询 词 是 “小 学 三 年 级 关于 时 间 的 名 人 名 言 ”。 
这 个 查询 词 很 完整 地 体现 了 搜索 者 的 搜索 意图 ,但 返回 的 查询 效果 并 不 好 。 绝 大 多 数 名 
人 名 言 , 并 不 规定 是 针对 几 年 级 学 生 的 。 因 此 “小 学 三 年 级 "事实 上 和 主题 无 关 , 会 使 得 搜 
索引 擎 丢掉 大 量 不 含 “小 学 三 年 级 ”但 非常 有 价值 的 信息 ,而 且 词 语 “ 关 于 ”也 是 一 个 与 名 
人 名 言 本 身 没有 关系 的 词 ,多 一 个 这 样 的 词 又 会 减少 很 多 有 价值 信息 ;“ 时 间 的 名 人 名 言 ” 
中 的 “的 ”也 不 是 一 个 必要 的 词 ,会 对 搜索 结果 产生 干扰 。 对 于 检索 词 “ 名 人 名 言 ” 中 的 “名 
言 " 通 常 就 是 名 人 留 下 来 的 ,在 名 言 前 加 上 名 人 是 一 种 不 必要 的 重复 。 因 此 ,最 好 的 查询 
词 应 该 是 “时间 名 言 ”。 试 着 找 出 下 述 查 询 词 的 问题 ,并 拟定 更 好 的 能 满足 搜索 需求 的 查 
询 词 : 所 得 税 会 计 处 理 问题 探讨 \ 周 星 驰 个 人 档案 和 所 拍 的 电影 。 

(3) 根据 网 页 特征 选择 查询 词 

很 多 类 型 的 网 页 都 有 某 种 相似 的 特征 。 例 如 ,小 说 网 页 ,通常 都 有 一 个 目录 页 ,小 说 
名 称 一 般 出 现在 网 页 标题 中 ,而 页 面 上 通常 有 “目录 ?两 个 字 , 单 击 页 面 上 的 链接 ,就 进入 
具体 的 章节 页 ,章节 页 的 标题 是 小 说 章节 名 称 ; 软 件 下 载 页 ,通常 软件 名 称 在 网 页 标题 中 ， 
网 页 正文 有 下 载 链接 ,并 且 会 出 现 “ 下 载 ? 这 个 词 等 。 经 常 搜索 并 且 总 结 各 类 网 页 的 特征 
现象 ,并 应 用 查询 词 的 选择 中 ,就 会 使 得 搜索 变 得 准确 而 高 效 。 例 如 , 找 明 星 的 个 人 资料 
页 ,一 般 来 说 明星 资料 页 的 标题 通常 是 明星 的 名 字 , 而 在 页 面 上 会 有 “姓名 ”、“ 身 高 ”等 词 
语 出 现 。 比 如 找 林青霞 的 个 人 资料 ,就 可 以 用 “林青霞 姓名 身高 ”来 查询 。 而 由 于 明星 的 
名 字 一 般 在 网 页 标题 中 出 现 ,因此 更 精确 的 查询 方式 可 以 是 “姓名 身高 intitle: 林 青 霞 ”。 
intitle, 表 示 后 接 的 词 限制 在 网 页 标题 范围 内 。 这 类 主题 词 加 上 特征 词 的 查询 构造 方法 适 
用 于 搜索 具有 某 种 共性 的 网 页 ,前提 是 用 户 必 须 了 解 这 种 共性 。 

2) 利用 百度 寻找 下 载 软件 

日 常 工作 和 娱乐 需要 用 到 大 量 的 软件 ,很 多 软件 属于 共享 或 者 自由 性 质 ,可 以 在 网 上 
免费 下 载 到 。 百 度 软 件 中 心 找 软件 ,在 搜索 框 输入 对 应 软件 名 称 ,例如 ,flashget。 见 
图 11-28。 

直接 找 下 载 页 面 ,这 是 最 直接 的 方式 。 软 件 名 称 加 上 “下 载 ” 这 个 特征 词 ,通常 可 以 很 
快 找到 下 载 点 。 例 如 ,flashget 下 载 。 

3) 利用 百度 寻找 问题 的 解决 方法 

我 们 在 工作 和 生活 中 ,会 遇 到 各 种 各 样 的 疑难 问题 。 例 如 ,计算 机 中 毒 了 、 被 开水 沟 
伤 了 等 。 很 多 问题 其 实 都 可 以 在 网 上 找到 解决 办 法 。 因 为 某 类 问题 发 生 的 概率 是 稳定 
的 ,而 网 络 用 户 成 千 上 万 ,于 是 庞大 用 户 群 中 遇 到 同样 问题 的 人 就 会 很 多 ,其 中 一 部 分 人 
会 把 问题 贴 在 网 络 上 求助 ,而 另 一 部 分 人 可 能 就 会 把 问题 解决 办 法 发 布 在 网 络 上 。 有 了 
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图 11-28 百度 软件 中 心软 件 下 载 实例 


搜索 引擎 ,就 可 以 把 这 些 信息 找 出 来 。 

找 这 类 信息 ,核心 问题 是 如 何 构建 查询 关键 词 。 一 个 基本 原则 是 : 在 构建 关键 词 时 
尽量 不 要 用 自然 语言 (所 谓 自然 语言 就 是 我 们 平时 说 话 的 语言 ), 而 要 从 自然 语言 中 提炼 
关键 词 。 这 个 提炼 过 程 并 不 容易 ,但 是 我 们 可 以 用 一 种 将 心 比 心 的 方式 思考 : 如 果 我 知 
道 问题 的 解决 办 法 ,我 会 怎样 对 此 做 出 回答 。 也 就 是 说 , 先 猜测 信息 的 表达 方式 ,然后 根 
据 这 种 表达 方式 取 其 中 的 特征 关键 词 , 从 而 达到 搜索 目的 。 

例如 ,我们 上 网 时 经 常会 遇 到 陷阱 ,浏览 器 默认 主页 被 修改 并 锁定 。 这 样 一 个 问题 的 
解决 办 法 ,我 们 应 该 怎样 搜索 呢 ? 首先 要 确定 的 是 ,不 要 用 自然 语言 。 比 如 ,有 的 人 可 能 
会 这 样 搜索 “我 的 浏览 器 主页 被 修改 了 , 谁 能 帮 帮 有 我 呀 ”, 这 是 典型 的 自然 语言 。 口 语 化 的 
搜索 词 也 可 以 给 出 适当 的 答案 ,但 是 这 样 的 搜索 常常 得 不 到 最 想 要 的 结果 。 我 们 来 看 这 
个 问题 中 的 核心 词汇 : 对 象 是 浏览 器 (或 者 正 ) 的 主页 。 事 件 : 被 修改 (锁定 )。 “浏览 
器 "”“ 主 页 ”和 ”被 修改 ”, 在 这 类 信息 中 出 现 的 概率 会 最 大 ,IE 可 能 会 出 现 ,至 于 锁定 ,用 
词 比 较 专业 化 ,不 见得 能 出 现 。 于 是 关键 词 中 至 少 应 该 出 现 “ 浏 览 器 ”“ 主 页 ”和 “被 修 
改 ”, 这 是 问题 现象 描述 。 一 般 情况 下 ,只 要 对 问题 做 出 适当 的 描述 ,在 网 上 基本 上 就 可 以 
找到 解决 对 策 。 例 如 ,浏览 器 主页 被 修改 、 冲 击 波 病毒 预防 。 

4) 利用 百度 寻找 英汉 互 译 

尽管 手头 有 英文 词典 ,但 翻 词典 一 是 麻烦 速度 慢 , 二 是 可 能 对 某 些 词汇 的 解释 不 够 详 
尽 。 中 译 英 就 更 是 如 此 了 。 多 数 词典 只 能 对 单个 汉字 词语 做 出 对 应 的 英文 解释 ,但 该 解 
释 在 上 下 文中 也 许 并 不 贴切 。 搜 索引 擎 找 英汉 互 译 的 一 个 长 处 就 在 于 ,可 以 比较 上 下 文 ， 
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使 翻译 更 加 精确 。 百 度 本 身 提 供 了 英汉 互 译 功能 ,fanyi. baidu. com 提供 在 线 翻 译 等 的 功 
能 。 图 11-29 为 百度 翻译 实例 。 


EX 
Bai 人 一 译 下 载 届 主持 件 。 下 载 出 许 app 吾 录 v 
2 EE EED 区 总 


在 学 校 和 学 院 的 大 力 支持 下 ， 外 国语 学 院 在 外 语 自主 学 习 中 。 X 
心 再 次 顺利 实施 大 学 英语 3 无 纸 化 考试 。 在 前 期 工作 基础 上 ， 
这 次 试点 在 2014 级 全 校 学 院 中 选取 4 个 学 院 ， 文 科学 院 2 个 ， 


With the support of the school and the college, the Foreign 
Language Institute in the foreign language autonomous learning 
center once again smooth implementation of College English 3 


理工 科学 院 2 个 ， 共 进行 20 场 次 无 纸 化 上 机 考试 ， 稚 盖 1200 
多 名 学 生 ， 我 院 一 直 致力 于 积极 探索 大 学 英语 考试 改革 ， 上 


paperless examination. On the basis of the preliminary work, the 
pilot in the class of 2014 school school selected four colleges, 2 
College of liberal arts, College of science and Engineering 2, a 
total of 20 sessions of paperless examination on computer, 
covering more than 1200 students. Our hospital has been 
committed to actively explore the reform of College English test, 
last semester the smooth implementation of the nearly 500 
students of College English 2 paperless of pilot test and no paper 
of make-up. 


则 妆 2 


学 期 顺利 实施 了 近 500 名 学 生 的 大 学 英语 2 无 纸 化 考试 试点 及 
无 纸 化 补考 工作 。 


印 观 语 对 由 
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图 11-29 百度 翻译 实例 


5) 利用 百度 寻找 范文 

写 应 用 文 的 时 候 , 找 几 篇 范文 对 照 着 写 ,可 以 提高 相应 的 工作 效率 。 

(1) 找 市 场 调查 报告 范文 。 市 场 调查 报告 的 网 页 有 几 个 特点 : 第 一 是 网 页 标题 中 通 
常会 有 “X X XX 调查 报告 ”的 字样 ;第 二 是 在 正文 中 通常 会 有 几 个 特征 词 ,如 “市 场 ”“ 需 
求 "“ 消 费 ” 等 。 于 是 ,利用 intitle 语法 ,就 可 以 快速 找到 类 似 范文 。 例 如 检索 式 为 ; 市 场 
消费 需求 intitle: 调 查 报告 。 

(2) 找 申请 书 范文 。 申 请 书 形式 多 样 ,常见 的 比如 入 党 申请 书 。 申 请 书 有 一 定 的 格 
式 , 因 此 只 要 找到 相应 的 特征 词 , 问 题 也 就 迎刃而解 。 比 如 入 党 申请 书 最 明显 的 特征 词 就 
是 “我 志愿 加 入 中 国共 产 党 ”"。 例 如 检索 词 为 : 我 志愿 加 入 中 国共 产 党 入 党 申请 书 。 见 
图 11-30。 

6) 利用 百度 寻找 谜底 

(1) 猜谜 语 。 有 时 候 会 遇 上 各 种 高 难度 的 谜语 ,但 有 了 搜索 引擎 ,通常 都 可 以 在 网 上 
找到 答案 。 搜 索 时 只 需 把 谜 面 和 “谜底 ”作为 关键 词 搜索 就 可 以 了 。 例 如 检索 内 容 为 : 眼 
皮 上 落 着 一 只 苍蝇 谜底 。 

(2) 解难 题 。 除 了 猜谜 语 外 ,还 会 遇 到 一 些 类 似 福尔摩斯 探 案 之 类 的 智力 题 。 有 这 
么 一 个 推理 题 ;“ 一 个 人 在 朋友 家 吃饭 , 问 朋友 这 和 餐 吃 的 是 什么 肉 ? 朋 友 说 是 企鹅 肉 , 他 
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图 11-30 百度 范文 搜索 实例 


就 号 吻 大 器 自杀 了 ”。 为 什么 呢 ?” 搜 一 下 。 这 个 题目 中 的 特征 词 串 是 “企鹅 肉 ”" 和 “自杀 ”， 
再 加 上 问题 答案 的 特征 词 “ 答 案 ”, 就 可 以 快速 找到 结果 了 。 再 比如 ,微软 招聘 曾 有 一 个 著 
名 的 题目 : 下 水 道 的 盖子 为 什么 是 圆 的 。 也 可 以 用 搜索 引擎 找 其 他 人 五 花 八 门 的 解答 。 
例如 检索 式 为 : 企鹅 肉 自杀 答案 。 

7) 利用 百度 寻找 医疗 健康 信息 

互联 网 上 有 大 量 的 健康 和 疾病 治疗 方面 的 资料 信息 ,“ 他 ”就 像 一 个 超级 大 夫 , 才 高 八 
斗 , 学 富 五 车 ,关键 是 要 看 用 户 怎么 去 向 他” 咨询。 

(1) 根据 已 知 疾病 查找 治疗 方式 。 这 类 资料 通常 有 这 样 的 特点 ,在 标题 中 会 注 明 疾 
病 的 名 称 , 同 时 会 有 诸如 “预防 %“ 治 疗 ”“ 消 除 ” 等 特征 性 关键 词 。 于 是 用 疾病 名 称 和 特 
征 性 关键 词 ,就 可 以 搜 到 相关 的 医疗 信息 。 例 如 ,消除 青春 辣 、 预 防 口腔 溃疡 。 

(2) 找 专 业 疾 病 网 站 。 对 于 某 些 大 型 的 综合 类 疾病 ,如 心脏 病 、 癌 症 、 艾 滋 病 等 ,也 可 
以 先 用 搜索 引擎 查找 这 类 疾病 的 权威 专业 网 站 ,然后 到 这 些 专业 网 站 上 求 医 问 药 ,获取 有 
关 知 识 。 就 是 用 疾病 名 称 作 为 关键 词 搜索 ,搜索 引擎 通常 会 把 比较 权威 、 质 量 比较 高 的 网 
站 列 在 前 面 。 例 如 ,艾滋病 。 见 图 11-31 。 

(3) 根据 症状 找 疾病 隐患 。 经 常 还 会 有 这 样 的 需求 ,已 知 身体 不 舒服 的 症状 ,希望 知 
道 可 能 的 疾病 隐患 是 什么 。 这 也 可 以 通过 搜索 引擎 解决 问题 ,一 般 的 疾病 介绍 资料 ,通常 
会 有 疾病 名 称 .疾病 症状 、 治 疗 方法 等 部 分 。 我 们 描述 的 症状 ,如 果 和 某 个 网 页 中 的 疾病 
症状 刚好 符合 , 搜 到 这 样 的 网 页 ,使 用 疾病 名 称 也 就 知道 了 。 做 这 类 搜索 的 关键 是 ,如 何 
把 症状 现象 用 常用 的 表达 方式 提炼 出 来 。 例 如 ,经 常 打 吧 。 
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人 免疫 系统 的 病毒 。 它 把 人 体 免疫 示 统 中 最 重要 的 T 潭 巴 组 胸 作 为 主要 攻击 目标 , 
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图 11-31 专业 疾病 搜索 实例 


8) 利用 百度 寻找 网 上 购物 信息 

直接 搜索 产品 即 可 购买 ,直接 搜索 商品 相关 信息 即 可 获得 对 应 产品 相关 购物 网 站 信 
息 。 例 如 ,在 搜索 框 输入 : 金庸 作品 集 , 即 可 获取 相对 应 的 购物 网 站 信息 。 单 击 相应 链接 
即 可 直接 购买 。 见 图 11-32。 
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图 11-32 百度 网 购 搜索 实例 


11.2 搜狗 搜索 引擎 的 信息 检索 与 利用 


自 2003 年 以 来 ,搜狗 先后 推出 搜狗 搜索 、 搜 狗 输入 法 及 搜狗 浏览 器 等 战略 级 产品 ,并 
开创 了 “输入 法 、 浏 览 器 ,搜索 ”三 级 模式 ,成 为 行业 追赶 者 的 唯一 成 功 模式 。2010 年 搜狗 
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从 搜狐 分 拆 运营 ,从 一 个 部 门 成 长 为 一 个 公司 ;2013 年 搜狗 引入 腾讯 的 战略 投资 ,合并 了 
腾讯 搜 搜 等 业务 。 搜 狗 是 中 国 互 联网 领先 的 搜索 .输入 法 .浏览 器 和 其 他 互联 网 产品 及 服 
务 提供 商 。 从 2004 年 8 月 搜狐 公司 推出 全 球 首 个 第 三 代 互动 式 中 文 搜索 引擎 一 一 搜狗 
搜索 以 来 ,历经 十 载 ,搜狗 搜索 已 发 展 成 为 PC 端 搜索 三 强 (Google、Baidu 与 Sogou) 之 
一 ,移动 搜索 排名 第 二 。 根 据 艾 瑞 咨 询 2015 年 8 月 数据 ,搜狗 PC 用 户 规模 达 5.21 亿 人 ， 
仅 次 于 腾讯 ,成 为 中 国 第 二 大 互联 网 公司 。 搜 狗 搜索 结合 腾讯 独家 资源 ,打造 微 信 搜索 ， 
上 线 本 地 生活 、 扫 码 比 价 、 微 信 头 条 等 独 有 服务 ,第 一 次 实现 了 真正 的 差异 化 竞争 ,一 方面 
不 断 拉 大 与 跟随 者 的 距离 , 另 一 方面 不 断 冲 击 榜首 位 置 。 

1. 搜狗 搜索 入 门 

1) 开始 第 一 次 搜索 

在 搜索 框 内 输入 要 查询 的 内 容 关 键 词 , 敲 击 回 车 键 (或 者 单 击 搜索 框 右 侧 的 搜狗 搜索 
按钮 ) 后 就 可 以 获得 想 要 的 搜索 内 容 , 无 须 下 载 . 安 装 融合 插件 。 例 如 , 想 查找 好 看 的 电 
影 ,在 搜索 框 内 直接 输入 好 看 的 电影 , 斋 击 回 车 键 或 者 单 击 “ 搜 狗 搜索 ”按钮 ,就 可 立即 获 
得 优质 的 结果 。 见 图 11-33。 


输入 搜索 关键 词 单 击 按钮 得 到 搜索 结果 
v 二 
好 看 的 电影 搜 哲 搂 索 


图 11-33 使 用 多 个 词语 并 用 空格 分 开 的 检索 实例 


如 果 您 想得到 更 精确 的 搜索 结果 ,只 需 输入 更 多 的 关键 词 , 并 在 关键 词 之 间 用 空格 分 
开 。 例 如 ,搜索 “中 国 北京 天 安 门 ”, 这 样 会 比 直 接 搜 * 中 国 北京 天 安 门 ” 结 果 要 好 。 见 
图 11-34。 


输入 搜索 关键 司 单 击 按钮 得 到 搜索 结果 
M4 M4 
| 中 国 北京 天 安 站 攻 


图 11-34 使 用 单个 检索 词语 搜索 实例 


2) 用 户 搜索 结果 界面 的 含义 
对 于 如 何 浏 览 搜索 结果 页 ,用户 可 能 忽略 了 50% 的 搜索 结果 界面 信息 。 每 个 带 下 划 
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线 的 蓝 色 行 都 是 用 户 搜索 词 找到 的 搜索 结果 。 搜 狗 很 贴心 地 把 最 相关 的 匹配 项 放 在 最 前 
面 , 单 击 就 可 以 打开 对 应 的 网 页 。 以 下 的 示例 图 11-35 可 以 帮助 用 户 了 解 搜索 结果 页 中 
所 有 的 结果 元 素 和 工具 ,分 别 用 七 个 部 分 进行 说 明 。 


新 加 网 页 音乐 图 片 视频 她 阴 知识 要 多 >> 1 


加 搜狗 搜索 | 撕 nin 


[TEL 


搜 向 识 图 搜索 一 一 探 天 图 片 间 后 的 故事 
识 光 识 用 搜索 .通过 上 伟 图 片 、 答 入 图 片 URL、 茹 标 拓 村 等 多 种 方式 进行 以 四 搜 枯 .用途 包 据 识 类 
人 物 姓名 、 分 关机 片 夏 从 、 导 拉 图 片 出 处 、 于 环 术 片 在 互联 网 的 伟 多 等 - 

pe togou .comy - 20119-16 


再 各 识 阳 搜 索 _ 用 户 知 助 .官方 论坛 
关 千 搜 潭 座 图 搜索 的 用 途 说 明 、 使 用 峰 盈 和 党 虽 问 题 提供 搜 济 识 图 柏 件 下 载 尝 淹 识 用 用 户 交流 
的 地 方 。 


pe sogou convsmuinder Nd 2011.9.16 


搜 有 i8 阳 的 图 片 搜 过 结果- 搜 和 图片 

在 耽 商 图 片 中 有 给 236 组 相关 结果 。 图片 搜 索 ,是 通过 输入 文本 关键 词 的 形式 搜索 图 片 烘 源 按 光 
全 覃 39390416 100k “其次 时 朋 的 图 片 且 妇 很 守 男 转 守 所 时 了 除 

pe sogou comy . 20119.15 


搜 向 扫 素 可 业 吉 总 经 再， 从 座 取 掉 和 说 二 示 大 办 老板 网 信息 推广 中 必 
2011 年 9 月 1 日 而 立 云 ， 视 漳 的 识 丁 搜索 涯 Googe 比 较 有 几 个 比较 重大 的 所 新， 我们 发 现 用 户 
在 之 前 的 诬 用 人 震 宋 午 到 ， 除 了 覃 术 到 风 这 于 图 片 及 文化 一 笠 的 图 片 之 


www chinaboss cn/ detal php7aga497%5 . 乌 旦 


搜狗 座 用 搜索 回 辐 乔布斯 传 竟 天 板 网 
2011 年 8 月 六 日 工具， 表册 内 图 搜索 1955 年 ， 史 得 夫 乔布斯 出 生 ， 在 雏 种 站 二流 特 苦 亢 的 里 
WRG T_T NI 1976 年 ， 时 年 21 交 的 舌 布 

sky cominews/387/130440887 shtml - 20118 想 . 革 咀 - 预 玫 


搜狗 效仿 百度 推 识 图 搜索 功能 可 实现 以 妥 搜 图 科技 腾讯 网 
笑 了 解 ， 营 通 的 一 片 视 壳 , A 入 列 识 国 搜 索 能 交 现 以 


图 杭 归 ， 邮 通过 上 传 用 片 、 贡 标 邱 要 、 和 鼠标 选 图 。 答 入 下 片 URL 地 址 等 多 种 方式 搜索 
he qq com/w20110816/000428 Mm - 位 四 


搜狗 识 图 


图 11-35 搜索 结果 实例 图 


第 一 部 分 : 信息 的 分 类 。 图 11-36 是 结果 信息 页 的 第 一 部 分 即 信息 分 类 标题 部 分 , 信 
息 分 类 标题 是 对 信息 类 别 进行 的 总 体 分 类 ,也 就 是 分 类 搜索 的 意思 。 分 类 标题 有 新 闻 、 网 
页 .音乐 图片. 视频. 地图、 知识 等 。 选 择 这 些 类 别 可 以 更 加 精确 地 搜索 用 户 需要 的 信息 
范围 , 单 击 “ 更 多 ”可 获取 更 多 的 搜狗 产品 。 

第 二 部 分 : 搜索 框 。 搜 索 框 是 搜索 引擎 接收 用 户 搜索 词 的 接口 ,用 户 输入 检索 词 后 
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1 .标题 


新 可 网 页 音乐 图 片 视 生 她 图 向 记 要 >> 1 


| 控 狗 分 类 搜索 , 单 击 这 些 类 别 ， 可 以 更 精 
确 地 找到 您 所 需要 的 内 容 , 单 击 更 多 "可 
摧 狗 识 四 搜索 一 探 素 图片 此 后 的 故事 以 看 到 其 他 扒 狗 的 产品 。 
摘 玫 识 四 搜索 通过 上 传 图 片 、 输 入 图 片 URL。 季 标 扼 搜 等 多 种 方式 进行 以 图 楼 图 .用 广电 括 识 天 
网 的 信用 每- 


人 物 姓名 、 分 辩 桓 片 不 念 、 导 投 图 片 出 处 中环 本 片 在 互联 | 
pe sogou. cor ~ 2011.9-16 


Lt Reidkal 和 
图 11-36 ”结果 页 第 一 部 分 “信息 分 类 标题 "实例 


按 回 车 Enter 键 或 单 击 “ 搜 狗 搜 索 ” 按 钮 即 可 。 其 中 在 用 户 输 入 搜索 项 的 词语 时 ,在 搜索 
框 位 置 系统 能 动态 提示 与 用 户 搜索 词 相关 的 最 热门 搜索 ,以 提示 用 户 评估 或 修正 自己 的 
检索 词 ,以 便于 获得 最 佳 的 搜索 结果 。 见 图 11-37。 


控 和 识 图 搜索 一 一 探 夭 图 片 背后 的 故事 

上 人 国语 和 国 URL 入 以 有 通过 在 搜索 框 内 输入 坦 询 词 , 然后 按 Ente 键 
人 和 名。 分类 上 下 从。 导 和 上 由 3 本 上 本 了 同人 和 或 者 单 击 搜狗 搜 索 即 可 - 

Pie sogou cory ~ 2011.9.-16 


搜 儿 i 衣 图 搜索 _ 用 户 王 助 . 官 方 论 坛 一 
关于 全 疝 忆 图 错过 的 用 这 说 明 ” 生 用 帮助 和 策 风 问题 提供 宁 史 认 图 和 件 下 载 大 开放 用 户 交流 小 提示 : 在 你 开始 输入 的 时 候 ， 系 统 会 动 
saclen son. DiGit 志 显 示 于 Ht 相关 的 最 扫 门 的 省 索 滨 ! 


搜狗 这 用 的 图 片 搜索 续 暴 - 搜 林 图 片 

在 酌 尖 图 片 中 有 的 236 组 相关 结 染 。 图 片 搜索 站 下 坟 给 入 文 丰 关 键 调 的 形式 视 索 图 片 浓 潭 搜 测 
识 国 。 393x416 100k ， 基 次 曙 丽 的 四 片 其 实 很 守 易 寺 灾 把 宇 了 除 

pre sogpu comy + 2011 人 5 


图 11-37 结果 页 第 二 部 分 "搜索 框 ?实例 


第 三 部 分 : 搜索 结果 。 在 搜索 结果 内 容 中 ,依据 结果 内 容 与 用 户 检索 词 的 相关 性 程 
度 对 反馈 的 信息 进行 排序 。 搜 索 结 果 项 包括 查询 反馈 信息 的 标题 摘要、 网 址 .快照 .网 页 
的 网 址 及 其 更 新 时 间 等 。 见 图 11-38 。 

第 四 部 分 : 选择 工具 与 条 件 过 滤 。 选 择 工具 内 容 包括 网 页 结果 的 音乐 ,图片 .视频 、 
知识 与 新 闻 ,便于 用 户 对 搜索 结果 的 信息 类 别 进 行 限制 .也 就 是 限定 为 特定 信息 类 别 的 查 
询 ,默认 信息 类 型 为 “网 页 ”。 时 间 筛 选 : 可 以 选择 搜索 最 新 或 某 一 段 时 间 内 的 信息 。 相 
关 搜索 : 如 果 首 次 搜索 ,有 可 能 拟定 的 检索 词 不 是 很 精确 而 达 不 到 理想 的 反馈 结果 ,这 时 
可 以 参考 其 他 网 友 的 搜索 方法 , 即 相关 搜索 以 提高 结果 质量 。 重 置 搜索 结果 : 清楚 用 户 
之 前 的 筛选 条 件 ,开始 新 的 查询 。 见 图 11-39 。 
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pe sogou cony - 2011.9-16 


3. 搜 索 结 果 
控 铬 设 妥 搜索 用 户 短 助 官方 论坛 
TT. 信用 才 助 和 常见 问题 捷 供 过 这 所用 拍 件 下 载 模 姑 识 图 用 户 交 流 也 会 标题、 接 要 、 网 址 .快照 


ee ‘anvshawindes Maml . 011.9.16 


搜 淹 设 用 的 图 片 搜索 续 暴 -搜狗 阴 片 

在 机 图 片 中 有 的 235 组 相关 结果 。 图 片 搜索 关 洒 寺 答 入 文 相关 键 调 的 于 区 视 索 图 片 当 尖 措 光 
名 国光 3x416 100k _ 革 次 时 表 的 图 片 其实 很 字 男 软 六 所 宇 了 除 Eee | 
pe togou comy-2011315 


抽 用 搜索 事业 部 总 经 理 ， 从 识 图 搜索 访 坟 末 大 势 老板 网 信息 推广 中 作 
2011 年 9 月 1 日 天 立 云 ， 神 询 的 识 吕 搜索 天 Googe 比 较 有 几 个 比较 重大 的 册 新 ， 我 们 发 现 用 户 
在 之 前 的 加 ， 除 了 宴 要 到 限 这 号 玫 片 有 文化 一 由 的 图 片 之 

www chinaboss cn/ delal php7adge49795 - 位 是 


于 和 i 儿 搜索 回 时 乔布斯 传奇 _ 天极 网 

2011 和 9 月 2 日、 工具 ， 现 光 愉 帮 搜 索 1955 年 ， 史 村 夫 乔布斯 出 生 ， 在 贷 支 由 州 特 兰 市 的 
理学 院 只 含 了 一 学 期 的 书 加 开 她 了 自己 的 工作 生涯 ，1975 年 ， 时 年 21 风 的 基 布 

oh yeshy com/mewW387/30440887 shtml .201485 - 必用 . 巴 丰 


控 儿 效仿 百度 推 识 好 搜 委 荔 能 可 实 弄 以 有 搜 图 科技 性 讯 网 
所 了 解 ， 管 适 的 西片 失常 ， 是 通过 钠 入 文本 关键 负 的 潮 式 搜索 币 片 党 淹 ， 理 守 避 图 扫 索 衣 实 现 以 
图 模 本 ， 时 通过 上 传 图 片 、 氛 标 相 搜 、 才 标 选 图 得 入 图 片 URL 地 址 等 多 种 方式 搜索 

hga qq com/w2D1108164000428 hm - 他 本 


图 11-38 结果 页 第 三 部 分 “搜索 结果 ?实例 


理想 , 这 时 可 以 参考 其 他 网 友 的 搜索 方 
式 , 没准 会 有 新 发 现 。 


重 直 搜索 结果 : 清除 掉 之 前 的 工 丢 们 件 。 


图 11-39 结果 页 第 四 部 分 "工具 与 过 滤 条 件 ? 实 例 


第 五 部 分 : 广告 。 这 些 广告 与 用 户 的 搜索 内 容 相 关 , 为 用 户 需要 查询 的 内 容 提供 有 
价值 的 参考 。 如 果 用 户 和 希望 展示 自己 的 网 站 ,也 可 以 进一步 了 解 相关 广告 内 容 与 事项 。 
见 图 11-40 。 

第 六 部 分 : 相关 搜索 。 参 考 其 他 网 友 的 相关 搜索 可 能 会 获得 更 好 的 搜索 结果 。 见 
图 11-41 。 
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5. 三 告 


这 些 广告 都 和 您 的 搜索 内 容 有 关 ,能 对 您 
要 查找 的 内 容 查 供 有 价值 的 参考 ，( 如 果 
您 有 兴 草 在 这 里 展示 语 己 的 网 站 , 也 不 妨 
了 解 一 下 。】 


112)3)4ls)el7) es) 9 10 | 下 一 页 > 


| 搜 移 座 田 
图 11-41 结果 页 第 六 部 分 “相关 搜索 ”实例 


第 七 部 分 : 网 页 底部 。 网 页 底部 有 更 多 的 结果 显示 (用 页 码 序 号 提示 ) 和 翻 页 导航 。 
见 图 11-42。 


112)3)4) se 7 e910) 下 一 而 > 


搜狗 识 图 


图 11-42 结果 页 第 七 部 分 “网 页 底部 ”实例 


3) 删除 搜索 历史 

很 多 用 户 在 搜索 时 总 是 会 自动 填充 以 前 搜索 过 的 内 容 , 不 知 如 何 解决 ,其 实 这 是 网 页 
浏览 器 的 一 项 基本 功能 。 需 要 进入 IE 浏览 器 的 相关 菜单 进行 设置 : 如果 您 使 用 IE4. 0 
浏览 器 , 则 可 通过 “查看 六 Internet 选项 ~ 内 容 一 自动 完成 ~ 清除 表单 一 完成 ”进行 设置 ; 
如 果 您 使 用 IE5.0 及 以 上 版 本 的 浏览 器 , 则 由 “工具 一 Internet 选项 内容 一 自动 完成 一 
清除 表单 一 完成 ”进行 搜索 历史 删除 。 见 图 11-43。 

如 果 和 希望 IE 浏览 器 以 后 不 再 记录 查询 过 的 内 容 , 请 在 “自动 完成 ”设置 页 面 内 把 “ 表 
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仿冒 网 站 策 选 00 上 
管理 加 载 项 和) 


图 11-43 ”IE 浏览 器 中 “删除 搜索 框 历史 ”的 操作 实例 


单 ” 前 的 选项 钧 去 掉 。 如 果 您 使 用 的 是 搜狗 浏览 器 ,在 工具 栏 的 “清除 浏览 记录 ”中 便 可 以 
轻松 删除 , 见 图 11-44。 


Tn 
清除 浏览 记录 (D) .… 


图 11-44 搜狗 浏览 器 “删除 搜索 框 历史 "操作 实例 


4) 不 能 正常 访问 搜狗 引擎 的 常见 解决 办 法 
(1) 确定 是 否 其 他 网 页 也 无 法 访问 ,以 排除 网 络 原因 。 
(2) 重启 一 次 浏览 器 ,并 尝试 重新 连接 到 Sogou。 
(3) 重启 计算 机 ,清除 浏览 器 缓存 并 删除 Cookie。 
(4) 使 用 防火 墙 . 代 理 服务 商 或 防 病毒 程序 。 
(5) 清除 计算 机 的 DNS 缓存 清除 Hosts 文件 。 
2. 搜狗 搜索 技巧 
1) 如 何 选 择 查询 词 
最 基本 、 有 效 的 查询 技巧 ,就 是 选择 合适 的 查询 词 。 以 搜索 引擎 容易 分 辨 的 词语 来 查 
询 , 能 够 大 大 提高 查询 效率 。 
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(1) 简单 明确 : 每 个 查询 词 都 应 该 使 目标 更 加 明确 ,尽量 减少 无 关 重 复 的 词语 。 
例如 ， 

X“ 简 简单 单 不 复杂 又 好 听 的 网 名 ”的 查询 词 太 长 ,完全 符合 条 件 的 结果 可 能 较 少 。 

“简单 的 网 名 ”效果 更 好 。 

检查 您 有 没有 把 自己 的 想法 以 对 话 的 方式 输入 查询 词 。 例 如 ， 

XX 搜索 “我 想 看 暑假 最 多 人 喜欢 的 电影 ”, 搜 索引 擎 不 会 理解 ,查询 词 太 长 。 

搜索 “暑期 热门 电影 ”效果 更 好 。 

(2) 使 用 网 页 中 会 出 现 的 语言 。 尽 量 使 用 网 页 上 可 能 出 现 的 词 。 例 如 ， 

X “很 多 人 喜欢 的 来 电 声音 ”。 

“来 电 铃声 ”或 “手机 铃声 ”。 

以 上 比较 好 的 查询 词 采 用 的 都 是 网 络 中 比较 常用 的 词汇 ,更 有 利于 得 到 优质 结果 。 
多 留意 网 页 上 会 出 现 的 词 ,并 且 去 猜测 信息 的 表达 方式 并 提取 关键 词 ,会 大 大 提高 搜索 的 

2) 高 级 搜索 的 常用 语法 

(1) 精确 匹配 〈“”) 。 利 用 双 引 号 可 以 查询 完全 符合 关键 词 字 串 的 网 站 。 例 如 直接 输 
入 热门 游戏 ,会 返回 "热门 网 络 游戏 " “热门 小 游戏 "“ 游 戏 下 载 ?等 内 容 , 如 果 输 入 "热门 
游戏 "用 双 引 号 进行 了 精确 匹配 ) ,搜狗 就 会 严格 按照 该 检索 词 的 完整 形式 查找 内 容 , 不 
做 任何 拆 分 。 

(2) 在 特定 网 站 内 搜索 (site: )。 见 图 11-45 。 


后 ”site 语句 查看 收录 情况 
除了 基本 站 内 坦 询 外 ， 搜 狗 还 为 站 长 和 网 泪 管理 员 们 提供 了 更 加 强大 的 功能 ， 使 用 的 时 候 不 加 关键 词 ， 只 需要 输入 “ site 站 点 域名 ”, 就 可 以 查找 你 的 网 站 在 搜 
御 引 录 旦 。 提 供 的 功能 包括 : 
收录 查询 : 输入 ”site 朵 站 域名 ”， 可 以 查 到 让 点 在 sogou63kk 录 情况 ， 如 果 博 客 地 址 ， 就 可 以 知道 你 的 博客 在 搜狗 8 收录 情况 ， 比 如 : 17173 Good 
Feel MC 的 共享 宁 由 
域名 后 如: 你 可 以 查看 一 个 域名 或 者 子 域名 下 的 内 容 ， 结 果 近 昭 重要 性 排序 。 比 如 “ site:cn" 是 指 在 所 有 同 站 域名 最 后 为 cn8y 收 录 情 况 ， 您 可 以 试 着 查询 一 下 
这 此 网 站 : 国内 公司 政府 机 关 教育 机 构 备 洲 地 区 隔 站 
支持 https: 所 有 以 https 才 开头 的 网 站 榜 接 也 前 能 使 用 站 内 查询 查找 ,比如 : 招商 银行 一 同 通 主 和 
庙 口 查询 大 部 分 网 站 使 用 80 消 口 ， 不 系 要 特别 指定 ， 但 有 些 开 在 其 他 端 口 ， 这 个 时 假使 用 “site 站 点 域名 讽 口 号 ”进行 查 筒 即 可 * 
海 旦 数据 支持 : 扫 狗 的 站 内 查询 内 容 丰 富 ， 针 对 您 的 查 将 站 点 提供 全 面 的 数据 


图 11-45 Site 语句 查看 收录 情况 说 明 


如 果 想 知道 某 个 站 点 中 是 否 有 自己 需要 找 的 东西 ,可 以 使 用 site 语法 ,其 格式 为 : 查 
询 词 十 空格 十 site: 网 址 。 例 如 只 想 看 搜狐 网 站 上 的 财经 新 闻 , 就 可 以 这 样 查询 : 财经 
site: sohu. com。 搜 狗 还 支持 多 站 点 查询 ,多 个 站 点 用 “1” 隔 开 ,“site:” 和 站 点 名 之 间 , 不 
要 带 空格 。 例 如 检索 式 为 : site:www. sina. com. cn |www. sohu. com。 
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(3) 在 特定 的 网 页 标题 中 搜索 (intitle: ) 。 如 果 需 要 把 搜索 范围 局 限 在 特定 的 网 页 标 
题 中 ,可 使 用 intitle 语法 ,其 格式 为 : 查询 词 十 空格 十 intitle: 网 页 标题 所 含 关键 词 。 例 
如 , 找 周 杰 伦 的 新 歌 , 则 检索 表达 式 为 : 新 歌 intitle: 周 杰 伦 。 

(4) 特定 文件 搜索 (filetype:)。 如 果 不 是 想 搜 网 页 内 容 , 而 是 想 找 某 一 类 的 文件 ， 
filetype 语法 可 以 解决 这 个 问题 。 其 搜索 语法 为 : 查询 词 十 空格 十 filetype: 格 式 , 格 式 可 
以 是 DOC、PDF、PPT、XLS、RTF、ALL( 全 部 文档 )。 例 如 检索 式 为 : 市 场 分 析 filetype: 
doc, 其 中 的 冒号 是 中 英文 符号 皆 可 ,并且 不 区 分 大 小 写 。filetype:doc 可 以 在 前 也 可 以 在 
后 ,但 注意 关键 词 和 filetype 之 间 一 定 要 有 空格 。 例 如 ,filetype: doc 市 场 分 析 。filetype 
语法 也 可 以 与 site 语法 混用 ,以 实现 在 指定 网 站 内 的 文档 搜索 。 例 如 ,site: www. cau. 
edu. cn| www. tsinghua. edu. cn filetype: all 中 国 , 表 示 的 含义 是 在 中 国 农 业 大 学 和 清华 
大 学 网 站 内 搜索 有 关 “ 中 国 ”的 文档 。 

3) 高 级 搜索 功能 

如 果 对 搜狗 的 各 种 查询 语法 不 熟悉 ,可 以 使 用 集成 的 高 级 搜索 功能 ,方便 实现 高 级 搜 
索 语法 功能 。 高 级 搜索 的 各 项 功能 如 图 11-46 所 示 。 


搜狗 搜索 


新 闻 网 页 音乐 图 片 视频 地 图 知识 更 多 


口 不 拆 分 关键 记 
去 除 

在 指定 站 内 搜索 
搜索 词 位 于 名 网 页 的 任何 地 方 _Q 〇 仅 在 标题 中 QO 仅 在 正文 中 OQ 仅 在 网 址 中 
搜索 结果 排序 方式 ”名 按 相关 性 排序 。 按时 间 排 序 


Oword(.doc) OPDF(.pdf) OPPT(.ppt) 
指定 文件 格式 。 oxcel(.x1s) ORIF(.ztf) 加 全 部 文档 @@ 全 部 网 页 


每 页 显示 10 条 结果 图 


搜狗 搜索 


返回 首页 个性 设置 


图 11-46 搜狗 高 级 功能 


(1) 去 除 : 如 果 想 要 避免 搜索 中 包含 某 些 内 容 , 可 以 将 需要 避免 的 内 容 填 在 框 中 。 例 
如 ,需要 查询 “仙剑 奇 侠 传 ”, 希 望 查 看 其 游戏 方面 的 信息 ,但 搜索 结果 中 包含 较 多 该 查询 
词 的 电视 剧 内 容 , 则 只 需要 在 搜索 框 中 输入 “仙剑 奇 侠 传 ”, 在 “去 除 ” 框 中 输入 “电视 剧 ”。 
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(2) 在 指定 站 内 搜索 : 比如 只 想 看 搜狐 网 站 上 的 新 闻 , 就 可 以 在 顶端 搜索 框 中 输入 
“新 闻 ”, 在 “指定 站 内 搜索 ” 框 中 输入 www. sohu. com。 

(3) 搜索 词 位 于 : 可 以 把 搜索 范围 局 限 在 特定 的 网 页 标题 、 网 页 正文 、 网 页 网 址 当中 ， 
使 用 时 只 要 选中 需要 的 范围 即 可 。 

(4) 搜索 结果 排序 方式 : 按 相 关 性 排序 可 以 让 与 搜索 词 匹 配 程度 最 高 的 结果 排 在 前 
列 , 按 时 间 排序 则 是 按 搜索 结果 的 时 间 顺 序 由 新 至 旧 排 列 。 

(5) 指定 文件 格式 : 如 果 要 查询 某 一 类 格式 的 文档 ,直接 在 这 一 栏 勾 选 想 找 的 文档 类 
型 即 可 。 

(6) 每 页 显示 : 修改 每 一 页 结果 的 显示 数量 ,搜狗 支持 每 页 显示 10 条 、20 条 、30 条 等 
结果 显示 。 

4) 个 性 设置 

用 户 可 以 根据 自己 的 搜索 习惯 ,在 个 性 设置 界面 中 改变 搜狗 默认 的 搜索 结果 显示 条 
数 和 搜索 结果 打开 方式 。 搜 索 结 果 显 示 条 数 设置 : 当 用户 想 一 次 性 浏览 大 量 信息 时 ,可 
以 在 此 修改 每 一 页 结果 的 显示 数量 ,搜狗 支持 每 页 显示 10 条 、20 条 、30 条 、50 条 或 100 
条 结果 ,默认 的 是 每 页 10 条 结果 ;搜索 结果 打开 方式 : 可 以 设置 单 击 搜索 结果 是 否 在 新 
窗口 打开 ,默认 的 是 打开 新 窗口 。 见 图 11-47 。 


首页 > 个 性 设置 搜索 帮助 | 搜狗 大 全 | 
请 先 确认 您 的 浏览 器 启用 了 cookie， 否 则 无 法 使 用 个 性 设置 
搜索 结果 显示 条 数 设 定 您 希望 搜索 结果 显示 的 条 数 每 页 显示 10 条 | 国 | 设 证 10 条 最 有 效 且 快速 
搜索 结果 打开 方式 设 定 您 希望 搜索 结果 打开 的 方式 加 在 新 窗口 中 打开 @ 在 原 窗口 中 打开 
图 11-47 搜索 引擎 的 个 性 设置 界面 
3. 搜索 框 提示 


当 开始 向 搜索 框 输入 拼音 或 者 文字 时 ,搜狗 马上 开始 推测 用 户 想 要 输入 的 内 容 , 并 提 
供 实 时 建议 。 例 如 ,用 户 输入 “xiaosh” 或 者 “小 说 ”就 会 出 现 如 图 11-48 所 示 的 提示 。 如 果 
手气 不 错 ,用 户 不 需要 输入 全 部 的 检索 信息 ,就 可 以 通过 使 用 箭头 键 或 鼠标 选择 所 需要 的 
提示 信息 。 而 且 搜 狗 的 提示 信息 都 是 根据 信息 的 热门 程度 来 预测 的 ,用 户 也 可 以 看 看 最 
近 的 相关 信息 热 搜 榜 。 

1) 拼音 提示 

如 果 觉 得 切换 中 文 输入 法 太 麻 烦 , 或 者 只 知道 某 个 词 的 读音 而 不 知道 字形 ,用户 只 要 
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| xiaoshu | 搜狗 搜索 | 下 级 搜 索 
| 了 | “说 

小 说 下 载 Kt 电子 书 免费 下 载 

| 小 说 下 载 

小 说 排行 榜 

小 说 下 载 网 

-| ` 说 网 


小 说 排行 榜 2011 前 十 名 
小 说 巴士 
小 说 库 


图 11-48 搜索 框 提示 的 实例 图 


输入 查询 词 的 汉语 拼音 ,搜狗 就 能 在 搜索 框 中 给 出 最 符合 的 汉字 提示 供用 户 选择 。 用 户 
也 可 以 直接 按 Enter 键 ,拼音 提示 自动 会 出 现在 搜索 结果 上 方 。 例 如 输入 qinghua 后 提 
示 为 “您 是 不 是 要 找 : 清华 ”。 见 图 11-49。 
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[qinonua | 搜狗 搜索 


找到 的 206.426 条 结果 (用 时 009 秒 ) 
您 是 不 是 要 找 : 清华 


清华 大 学 - Tsinghua University 

清华 大 学 校园 网 站 水 木 清 华 ， 人 文 日 新 。 九 十 多 年 的 历史 ， 孕 育 和 积淀 了 清华 大 学 优良 的 传统 
和 深厚 的 文化 底蕴 。 作 为 国家 重点 建设 的 高 等 学 校 ， 清 华 大 学 的 发 展 得 到 了 社会 各 界 .… 
Wwwtsinghua edu cn/ - 2011-9-20 -快照 


图 11-49 拼音 提示 的 实例 


2) 错别字 提示 

我 们 在 打字 输入 检索 词 时 经 常会 输入 一 些 错别字 ,导致 搜索 的 结果 根本 是 不 需要 的 
信息 。 有 了 搜狗 错别字 提示 功能 ,这 个 问题 就 迎刃而解 了 ,被 打 错 的 字 会 显示 在 结果 上 
方 ,并 且 直 接 显示 正确 字形 的 搜索 结果 。 例 如 输入 青 华 大 学 ,会 提示 “您 是 不 是 要 找 : 清 
华 大 学 ”。 见 图 11-50。 

4. 搜狗 信息 搜索 服务 产品 

搜狗 提供 一 系列 的 搜索 服务 产品 ,主要 有 以 下 几 种 。 
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搜狗 搜索 


您 是 不 是 要 找 : 清华 大 学 


-Tsinghua Universi 
电话 查 号 台 :010-62785001 / 管理 员 信箱 : 地 址 :北京 市 海淀 区 清华 大 学 / 版 权 所 有 清华 大 学 访问 
重 : 京 公 网 安 备 110402430053 号 .. 

www.tsinghua_edu.cn/._ishith/ - 2011-9-8 -快照 


图 11-50 错别字 提示 的 实例 图 


(1) 新 产品 推荐 。 例 如 搜狗 明 医 、 搜 狗 知 乎 搜索 、 搜 狗 软件 下 载 、 搜 狗 微 信 搜 索 等 。 
见 图 11-51。 


新 产品 推荐 pm 


损 绷 用 wew 搜狗 知 平 搜索 YEm 搜 拓 软件 下 载 VE 号 撞 般 信 朱 示 =” (@) 措 时 4 过 =" 


图 11-51 搜狗 新 产品 推荐 


(2) 搜狗 产品 。 产 品 丰 富 , 包 括 网 页 音乐、 视频 、 图 片 .学 术 、 文 档 、 论 坛 等 26 种 。 见 
图 11-52。 


搜索 产品 
搜狗 敬 信 搜索 eM 画 网 而 搜索 音乐 搜索 
油 信 公众 号 ， 精 彩 内 容 抽 守 收录， 一 搜 即 达 和 敢 录 百 亿 网 页 ， 每 日 更 新 超过 5 亿 海里 音乐 资源 全 收录 新歌、 热 歌 一 网 打 尽 
视频 搜索 1 图 片 搜索 动 ” 地 图 搜索 
网 罗 海量 精彩 视频 ， 提 供 完美 观看 体验 搜索 互联 网 统 纷 世界 ， 美 女 遇 加 图 片 看 不 尽 月 提供 中 国 最 好 的 同上 地 图 服务 ， 著 差 所 有 地 级 城市 
(| 新闻 拨 索 搜狗 问 问 搜狗 百科 
即时 采集 近 2000 家 新 闻 源 ， 每 分 钟 更 新 有 问题 ,来 问 问 ,一 问 天 下 应 海 纳 各 信 域 知识 ， 新 一 代 百科 全 书 
购物 搜索 知识 搜索 博客 搜索 
全 网 商品 比比 看 ， 低 从 购物 利 器 搜索 全 民 的 智慧， 帮 你 寻找 答案 搜索 博客 文章 ， 坦 找 明星 草根 
论坛 搜索 招聘 搜索 文档 搜索 
回合 各 大 论坛 内 容 ， 更 新 超 快 最 县 时 站 性 的 招聘 挫 索 互联 网 最 全 面 的 PPT、doc 等 文档 搜索 
素材 搜索 和 搜狗 阅读 
汇集 全 网 设计 素材 ， 更 快 寻 找 优质 免费 资源 挫 狗 阅读 ,快乐 阅 该， 享受 阅读 ! 
楼 拘 软 件 下 载 “ 人 痊 拉 : 叶 Loco 
1 ie 
高 速 下 载 最 新 最 全 的 电脑 软件 搜狗 首页 特色 LOGO、 彩 蛋 、 小 游戏 
访问 搜 析 百 主 箱 从 6 搜狗 详 验 室 过 =， 网 让 导航 
服 票 、 天气 、 电话 号 码 等 便利 要闻 工具 a 创 访 产品 、 原 型 演示 、 资 料 下 载 、 学 术 论 文 下 失物 为 您 精 选 的 优秀 网 站 大 全 ， 方 便 实用 
提供 优质 的 每 外 文献 检索 上 


图 11-52 搜狗 搜索 产品 推荐 
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(3) 搜狗 桌面 。 项 目 产 品 包括 搜狗 高 速 浏览 器 、 搜 狗 拼音 输入 法 和 搜狗 壁纸 。 见 
图 11=53; 


搜狗 拼音 输入 法 | 亚 载 和 扫 吧 乐 
和 束 引 擎 和 四 级 加 速 体系 ， 堪 称 -上 同 A 超大 词 库 ， 超 六 皮肤 ，iB 呈 “ww 万 教 美 图 、 一 键 更 换 、 分 寒 率 自 适 应 、 自动 定时 


图 11-53 搜狗 桌面 工具 


(4) 手机 软件 。 手 机 端 产品 有 搜狗 手机 助手 、 手 机 输入 法 、 搜 狗 语 音 助手 等 10 类 。 
见 图 11-54。 


手机 软件 
搜 儿 搜索 "Ee 搜狗 手机 往 入 法 [下 载 SS 搜狗 手机 助手 
最 懂 你 的 智 朋 搜索 ! 看 新 闻 、 读 小 说 神器 1 最 实用 的 手机 输入 法 ， 词 师 礁 确 、 键 位 合理 , 首创 下 应 用 、 装 莲 戏 ， 简 单 好 用 
在 计 更 新 
搜 哲 号码 通 Ss. 搜狗 手机 地 图 人 后) 搜狗 语音 助手 
人 重生 的 手机 虽 打 拓 软 件 ， 基 于 搜索 更 智能 最 省 心 的 手机 地 图 软件 ， 坟 8 路 况 计算 ， 推 荐 师 通 搜 阁 语音 助手 ， 您 身边 极 革 主音 小 秘书 ! 
路 线 ，Z8 后 开 拥 才 ! 
搜狗 手机 浏览 器 搜狗 公交 搜狗 路 况 导航 
© 所 这 ,稳定 涝 壬 PC 精彩 ， 享受 如 - 书 " 攻 的 朵 这 体 区 最 经 便 、 可 靠 的 公交 助手 新 一 代 智 能 导航 ， 没 有 圳 博 ， 畅 通 无 了 
验 ! 
cD 搜狗 游戏 盒子 e™ 
欢乐 游戏 ， 从 这 里 开始 


图 11-54 搜狗 手机 软件 服务 产品 


11.3 ” Google 搜索 引擎 的 检索 应 用 


1. Google 概述 

Google 网 络 搜索 引擎 是 目前 世界 上 发 展 最 快 .规模 最 大 、 网 络 用 户 量 最 多 的 大 型 搜 
索引 擎 。Google 创建 于 1998 年 9 月 ,创始 人 为 Larry Page 和 Sergey Brin。Google 的 使 
命 是 整合 全 球 信息 ,使 人 人 和 皆 可 访问 并 从 中 受益 。Google 允许 以 多 种 语言 进行 搜索 ,在 
操作 界面 中 提供 多 达 132 种 查询 语言 。Google 搜索 引擎 的 主要 搜索 服务 有 了 网页、 图片 、 
音乐 .视频 .地 图 . 新闻、 问答 等 搜索 服务 产品 。Google 中 文 版 搜索 主 界面 如 图 11-55 
所 示 。 

“谷歌 "是 Google 公司 针对 海外 中 文 用 户 市 场 而 起 的 唯一 一 个 中 文 名 字 , 谷歌 在 发 音 
上 与 Google 相似 ,同时 也 融合 了 中 国 传统 文化 的 含义 。 谷 歌 的 意思 就 是 以 谷 为 歌 , 是 播 
种 与 期 待 之 歌 , 亦 是 收获 与 欢 恰 之 歌 。 在 搜索 信息 时 如 果 选 择 英 文 搜索 , 单 击 右 下 角 的 
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Coogle 


搜索 输入 框 


搜索 按钮 英文 版 
图 11-55 谷歌 引擎 中 文 搜索 用 户 界面 


English 链接 即 转 到 英文 界面 ,英文 搜索 界面 和 中 文 界面 基本 一 致 ,英文 搜索 用 户 界面 如 
图 11-56 所 示 。 


oogle 


Hong Kong 


Google Search rm Feeling Lucky 
Google com hk offered im- 中 文 ( 树 扯 ) 中 文 (简体 ) 


图 11-56 谷歌 英文 搜索 


Google 搜索 引擎 以 其 使 用 简单 .干净 简洁 的 用 户 检索 界面 ,检索 结果 与 用 户 查 询 需 
求 的 相关 度 高 ,提供 的 搜索 关联 业务 服务 产品 丰富 等 优势 ,赢得 了 越 来 越 多 因特网 用 户 的 
广泛 认同 。 谷 歌 搜索 引擎 每 天 需要 处 理 两 亿 多 次 网 络 用 户 的 搜索 请 求 , 数 据 库存 有 30 亿 
个 Web 文件 ,提供 常规 初级 搜索 和 高 级 搜索 两 种 功能 。 

2. 便捷 实用 的 Google 翻译 功能 

对 于 大 学 生 的 探究 性 和 研究 性 学 习 而 言 ,查询 与 获取 前 沿 性 、 质 量 高 的 外 文 资料 可 以 
帮助 开拓 思路 和 及 时 了 解 国际 领先 成 果 , 避 免 人 力 和 时 间 上 的 浪费 。Google 的 多 语种 翻 
译 功能 为 外 文 资料 检索 带 来 了 极 大 的 方便 , 它 应 用 计算 机 智能 翻译 技术 ,打破 了 语言 上 的 
障碍 ,甚至 可 以 查 到 词典 上 没有 的 生词 ,Google 的 翻译 页 面 如 图 11-57 所 示 。 

如 果 学 生 在 搜索 某 一 外 文 主题 资料 时 不 知道 相应 的 英文 表述 ,或 在 阅读 外 文 资料 时 
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翻译 语言 选择 原 语言 输入 框 翻译 目标 语言 选择 
| 
上 胆 受 国 片 地 十 新 闻 | 云 渤 硬盘 日 历 铀 至 后 电 村 入 
| ] 
翻译 | 
要 江 中 文 a Domne 如 px 甘油 BS ~ EE 


图 11-57 谷歌 翻译 主 界 面 


遇 到 生词 影响 进度 ,可 用 Google 的 “中 英文 词典 ”来 解决 这 些 难题 。 只 要 在 Google 的 搜 
索 框 中 同时 输入 “翻译 ”或 “fy” 与 要 翻译 的 中 文 或 英文 词汇 ,在 返回 的 结果 网 页 的 最 上 方 
就 可 以 找到 相关 的 翻译 信息 。 如 果 用 户 使 用 Google 搜索 外 文 网 站 ,会 惊喜 地 发 现 搜索 结 
果 页 面 多 数 网 站 链接 后 都 出 现 了 “[ 翻译 此 页 BETA]” 链 接 , 单 击 它 就 可 以 看 到 Google 自 
动 翻译 的 中 文 页 面 ,该 网 页 翻译 服务 实现 了 中 文 到 英文 的 智能 翻译 。 

3. 快捷 有 效 的 Google 特殊 操作 符 搜索 

在 进行 信息 检索 的 过 程 中 ,很 多 用 户 都 遇 到 过 这 样 的 问题 : 检索 结果 中 有 很 多 与 检 
索 词 无 关 或 没有 学 术 或 研究 性 价值 的 链接 ,而 有 用 信息 则 被 淹没 其 中 。 在 输入 检索 条 件 
时 使 用 一 些 特殊 操作 符 , 可 以 起 到 事半功倍 的 效果 。 

(1) 用 “filetype” 搜 索 指定 信息 文档 类 型 。Google 支持 13 种 非 HTML 文件 的 搜索 ， 
包括 Microsoft Office 系列 文档 (doc、ppt、xls、rtf),Adobe 公司 的 pdf 文档 和 swf 文档 等 ， 
还 支持 jpg 图 片 格式 的 文档 。 使 用 “filetype” 来 搜索 指定 类 型 的 文档 ,可 以 大 大 拓宽 
Google 用 户 在 网 上 获得 信息 的 目的 性 。 如 果 用 户 想 查找 有 关 虚 拟 现 实 技术 方面 的 学 习 
课件 ,只 需 搜索 “filetype: ppt 虚拟 现实 技术 ”, 搜 索 结果 中 出 现 的 链接 将 都 是 ppt 文档 。 
Google 可 以 为 用 户 提 供 不 同类 型 文件 的 “HTML 版 ”方便 用 户 在 未 安装 相应 应 用 程序 
的 情况 下 阅读 各 种 文件 内 容 , 用 “HTML 版 ”阅读 能 帮助 用 户 防范 某 些 类 型 文档 可 能 带 来 
的 病毒 。 

(2) site 操作 符 。 用 “site” 限 制 在 某 个 网 站 或 网 站 的 某 个 网 页 内 进行 搜索 。 互 联网 上 
有 许多 网 站 本 身 并 不 具备 网 站 搜索 功能 , 想 要 在 这 些 网 站 中 查找 一 些 资 料 十 分 费力 ,这 时 
可 以 利用 site 操作 符 对 这 个 网 站 进行 内 部 搜索 ,简便 地 找到 所 需 的 资料 。 例 如 , 某 个 搜索 
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用 户 想 了 解 桂林 电子 科技 大 学 2016 年 的 研究 生 招 生 信息 ,只 需 在 搜索 框 中 输入 “site: 
www . guet. edu. cn 研究 生 招生 ”就 能 快捷 地 找到 所 需 网 页 内 容 。 

(3) In- 系 列 搜索 指令 

In- 系 列 搜索 指令 是 Google 搜索 中 最 重要 的 "位置 关键 词 ?查找 方式 ,通过 intitle、 
inurl 、intext 三 个 搜索 指令 来 指定 关键 词 的 位 置 ,可 以 分 别 查找 在 标题 链接、 正文 包含 搜 
索 关 键 词 的 网 页 结果 。 对 于 目标 明确 的 搜索 者 来 说 , In- 系列 搜索 指令 往往 最 为 简洁 ,能 
够 有 效 简 化 搜索 结果 ,提高 搜索 精确 度 。 

Q@ Inurl 链接 搜索 。Inurl 操作 符 可 以 限制 所 搜索 关键 词 包含 在 URL 链接 中 。 任 何 
网 站 的 url 都 不 是 随意 设置 的 ,url 链接 通常 和 网 页 的 内 容 有 着 密切 的 相关 ,利用 这 种 相 
关 性 可 以 缩小 搜索 范围 ,快速 找到 所 需 信 息 。 比 如 ,提供 书籍 下 载 的 url 一 般 包 括 book、 
ebook shu、shuji 等 ,而 与 软件 相关 的 会 使 用 soft、software、ruanjian 等 。 平 时 注意 观察 网 
页 的 url, 就 能 总 结 出 不 同 资源 的 常用 url。 如 果 要 查找 数据 挖掘 方面 的 资料 ,可 以 使 用 
“inurl:book 数据 挖掘 ”这 个 检索 表达 式 , 就 可 以 搜索 到 很 多 相关 书籍 的 网 站 。 

@ Intitle 标题 搜索 。intitle 操作 符 可 将 搜索 的 关键 词 包 含 在 网 页 的 标题 中 ,网 页 在 
设计 时 一 般 都 会 把 网 页 的 关键 内 容 用 简明 的 语言 显示 在 网 页 的 标题 中 。 利 用 intitle 操作 
符 对 网 页 的 标题 栏 进行 搜索 ,一 般 都 会 找到 相关 率 比 较 高 的 专题 性 页 面 。 例 如 ,搜索 中 国 
知 网 的 相关 信息 ,只 需 输入 "intitle:cnki” 即 可 查询 到 所 需 网 页 。 

@ Intext 正文 检索 。 与 标题 搜索 相 比 ,正文 检索 的 搜索 目标 更 明确 ,而 且 适 合 于 一 次 
性 搜索 同一 主题 的 不 同 分 支 内 容 。 例 如 ,如 果 想 要 找到 高 血脂 的 病因 及 其 治疗 方面 的 信 
息 , 就 可 以 利用 :“intext: 高 血脂 十 病因 十 治疗 ”来 得 到 理想 的 搜索 结果 。 

4. Google 信息 检索 实用 功能 

(1) 目录 检索 。Google 的 分 类 网 站 目录 划分 明确 ,信息 集中 ,大 学 生 应 养 成 首先 考虑 
在 相关 主题 网 站 上 查找 所 需 信息 的 习惯 。 查 找 专 题 网 站 ,可 以 按 学 科 主 题 进行 浏览 ， 
Google 使 用 的 分 类 目录 采用 了 ODP (公共 网 页 目录 ) 规 范 。 打 开 网 页 目录 ,进行 分 类 浏 
览 ,可 以 查看 依照 性 质 和 内 容 分 类 的 由 世界 各 地 义务 编辑 人 员 审 核 挑 选 的 网 页 。 在 检索 
时 选择 在 某 一 目录 门类 中 进行 搜索 ,往往 要 比 同类 搜索 引擎 有 更 高 的 命中 率 和 检索 效率 。 

(2) 使 用 偏好 。 单 击 Google 搜索 按钮 右 侧 的 “使 用 偏好 ”链接 ,可 以 通过 使 用 偏好 功 
能 轻松 设置 用 户 的 个 性 检索 。 设 置 方法 如 下 : 如 果 在 “界面 语言 ”中选 “中 文 简体 ”, 打 开 
的 页 面 语言 就 是 中 文 简体 。 如 在 "搜索 语言 ”中 选中 文 简体 ”,Google 就 只 会 在 简体 中 文 
网 页 中 进行 搜索 。 建 议 选中 “开启 新 视窗 以 显示 查询 结果 ”一 项 ,这 样 单 击 搜索 结果 时 会 
打开 新 的 窗口 。 使 用 偏好 设置 还 允许 用 户 定制 搜索 结果 页 面 所 含 信 息 条 目 数量 ,可 从 10 
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到 100 条 任 选 ,还 可 以 选择 是 否 使 用 汉字 简 繁 体 转换 ,最 后 单 击 存储 使 用 偏好 ,就 可 以 将 
本 次 设置 的 格式 套用 到 以 后 的 搜索 中 。 

(3) 地 图 搜索 与 地 图 导航 。 与 其 他 搜索 引擎 相 比 ,Google 有 功能 最 强大 的 地 图 搜索 
功能 (包括 二 维 地 图 ,立体 地 图 、 全 景 地 图 等 )。 单 击 谷歌 地 图 可 以 自动 跳 转 到 所 在 地 地 
图 ,并 可 以 在 相应 的 搜索 栏 输入 要 检索 的 地 图 以 及 乘 车 信息 等 内 容 , 并 同步 进行 地 图 位 置 
导航 。Google 地 图 搜索 实例 如 图 11-58 所 示 。 

(4) 图 片 搜索 。Google 也 是 互联 网 最 好 用 的 图 像 搜索 工具 , 单 击 Google 首页 的 图 像 
检索 模块 ,在 关键 词 输入 栏 内 输入 关键 词 , 就 可 以 找到 需要 搜索 的 图 片 缩 图 ,而 且 可 以 查 
看 原始 图 片 及 查找 出 该 图 片 的 出 处 。 除 了 Google 提供 的 专门 图 片 搜索 功能 外 ,还 可 以 组 
合 使 用 一 些 搜索 语法 ,以 达到 准确 图 片 搜索 的 目的 。 其 中 一 种 是 利用 专门 提供 图 片 集 合 
的 网 站 ,通常 会 把 图 片 放 在 某 个 专门 的 目录 下 ,如 /gallery、album、photo、image 等 ,这 样 
就 可 以 使 用 inurl 语法 迅速 找到 这 类 目录 。 另 一 种 是 提供 图 片 集合 的 网 页 ,通常 在 标题 栏 
内 会 注 明 某 个 图 片 集合 ,可 以 用 intitle 语法 找到 这 类 图 片 ,还 可 以 用 site 语法 指定 所 提供 
图 片 的 站 点 。 图 片 搜 索 界 面 如 图 11-59 所 示 。 

(5) 音像 资料 搜索 。 搜 索 MP3 可 以 用 inurl 语法 搜索 ,也 可 以 用 网 页 标题 intitle 语 
法 搜索 音像 资料 。 例 如 搜索 "时 间 都 去 哪 了 ”这 首 歌 , 则 搜索 式 为 : inurl: mp3 时 间 都 去 哪 
了 。 例 如 搜索 百 家 讲 坛 的 电视 视频 节目 , 则 搜索 式 为 : intitle: 电视 节目 百 家 讲 坛 。 

(6) 软件 搜索 。 在 软件 搜索 时 ,直接 输入 软件 名 称 下 载 ,但 这 样 随意 下 载 是 不 安全 
的 , 供 下 载 的 软件 有 可 能 带 有 病毒 或 捆绑 木马 。 需 要 用 site 语法 对 下 载 网 站 进行 限定 。 
搜索 下 载 软件 的 serial number、 sn 等 序列 号 信息 ,直接 输入 关键 词 即 可 。 例 如 搜索 
winzip10.0 的 注册 码 , 则 搜索 式 为 : winzip8. 0 sn。 

(7) 近似 词 搜索 。 如 果 需 要 搜索 同义词 或 者 近义词 ,需要 在 检索 词 前 加 "一 ”。 例 如 
“一 elderly” 可 以 获得 包括 "senior”“older”“aged” 等 内 容 的 网 页 。 

5。Google 高 级 搜索 

在 Google 中 ,除了 普通 的 搜索 外 ,还 可 以 进行 高 级 搜索 。 在 高 级 搜索 界面 ,可 以 输入 
需要 的 多 个 检索 词 进行 高 级 搜索 逻辑 限定 ,以 提高 信息 搜索 的 准确 性 。Google 高 级 搜索 
主 界面 如 图 11-60 所 示 。 

对 于 大 学 生 而 言 , 要 提高 网 络 信息 搜索 的 查询 质量 与 查询 效率 ,避免 在 检索 结果 中 出 
现 过 多 不 相关 信息 而 导致 的 信息 噪音 干扰 ,无 论 是 在 使 用 搜索 引擎 还 是 一 般 检索 数据 库 
时 ,都 需要 逐步 形成 信息 “高 级 搜索 ”的 基本 素养 。Google 高 级 搜索 的 主要 功能 如 下 。 

(1)“ 以 下 所 有 字 词 ”: 例如 直接 输入 分 布 式 网 络 数据 库 系 统 ,在 检索 时 包括 了 分 布 
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11-58 谷歌 地 图 搜索 实例 (桂林 市 中 心 区 ) 
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按 图 片 搜索 x 
未 山 图 片 网 直 目 。 上 传 图 片 


图 11-59 谷歌 图 片 搜索 主 界面 


RS 
以 下 所 有 闻 司 : 
STE : 
以 下 EB 字 河 : 

不 和 以 下 ES 司 : 


区 宁国 :从 到 


然后 按 以 下 标准 缩小 搜索 
结果 范围 


人 
{NRE 
{EN 

字 汪 出现 ( 置 ; 网 矶 上 任何 习 秆 
知 
格式 
TFT 


图 11-60 Google 高 级 搜索 主 界面 


式 、 网 络 、 数 据 库 、 系 统 、 分 布 式 网 络 、 网 络 数据 库 、 数 据 库 系统 、 分 布 式 网 络 数据 库 系统 等 
所 有 字 词 在 内 。“ 以 下 所 有 字 词 "的 检索 广度 较 高 ,拓展 了 信息 检索 的 范围 ,因此 信息 查 全 

(2)“ 与 以 下 字 词 完全 匹配 ”: 需要 用 双 引 号 将 检索 词 括 起 来 ,例如 ,移动 互联 网 ? 表 
示 完 全 匹配 检索 词 “ 移 动 互 联网 ”.。“ 与 以 下 字 词 完全 匹配 ?的 检索 查 准 率 高 。 
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(3)“ 以 下 任意 字 词 ”. 在 检索 时 需要 OR 连接 ,例如 ,批发 价 OR 团购 价 OR 特价 , 检 
索 结 果 包 括 了 商品 的 批发 价 \、 团 购 价 、 特 价 等 内 容 。“ 以 下 任意 字 词 "检索 的 查 全 率 较 高 。 

(4)“ 不 含 以 下 任意 字 词 ”: 检索 时 在 检索 词 前 加 减 号 ( 即 一 ) ,例如 ,一 山大 、 一 鸭 梨 ， 
表示 获取 的 信息 中 剔除 了 “山大 ”和 * 胸 巢 ” 方 面 的 信息 。 

(5)“ 数 字 范 围 ”: 在 检索 时 在 两 个 数字 检索 词 之 间 用 两 个 点 号 分 开 , 并 在 数字 旁 添 加 
度量 单位 。 例 如 ,200. . 300 公斤 .2013. .2016 年 。 

(6)“ 语 言 ”: 用 户 指 定 搜索 结果 网 页 的 语言 类 型 即 查找 用 户 所 熟悉 的 网 页 语言 (例如 
韩语 网 页 ) 。 

(7 六 地 区 ”: 用 户 指定 在 特定 地 区 发 布 的 网 页 。 

(8)“ 最 后 更 新 时 间 ”: 查找 用 户 指定 时 间 内 更 新 的 网 页 。 

(9)“ 网 站 或 域名 ”: 搜索 用 户 指定 的 网 站 (例如 www. guet. edu. cn) 内 容 ,或 者 将 搜 
索 结果 限定 在 指定 的 域名 范围 内 (例如 . org 、. gov 或 . com 等 )。 

(10)“ 字 词 出 现 位置 ”: 用 户 可 以 限定 搜索 的 关键 字 词 出 现在 整个 网 页 .网 页 标题 、 网 
址 或 网 页 中 链接 的 字 词 位 置 。 

(11)“ 安 全 搜索 ”: 用 户 可 以 设置 安全 搜索 的 等 级 为 适中 严格 或 关闭 ,指定 安全 搜索 
用 来 针对 色情 内 容 的 过 滤 等 级 。 

(12)“ 文 件 类 型 ?: 指定 所 查找 网 页 的 文件 格式 ,例如 ,. PDF、. PPT.、. FLV.、. DOC 等 
文件 格式 的 网 页 。 

(13)“ 使 用 权限 ”: 查找 不 依据 许可 过 滤 , 可 以 任意 使 用 的 网 页 。 

(14)“ 个 性 化 搜索 ”: 包括 查找 类 似 网 页 或 相应 网 页 .搜索 访问 过 的 网 页 在 搜索 框 中 
使 用 通配符 和 自 定义 搜索 设置 。 

(15)“ 网 页 快照 *(cached): 帮助 用 户 快速 浏览 和 判定 网 页 的 大 致 内 容 , 帮 助 查询 某 
些 链 接 已 经 不 存在 或 者 内 容 更 换 了 的 网 页 ,这 对 于 追溯 一 些 过 去 的 网 页 是 有 辅助 作用 的 。 

6. Google 引擎 的 突出 特点 

客观 公正 。Google 以 其 复杂 而 全 自动 的 搜索 方法 排除 了 人 为 因素 的 干预 ,从 而 保证 
了 搜索 结果 的 客观 公正 性 。 

独特 PR 值 。PR 值 即 网 页 排序 (PageRank) 值 ,是 Google 判定 网 页 重要 性 的 重要 标 
准 ,PR 值 越 高 说 明 网 页 的 重要 性 程度 越 高 ,该 技术 也 是 Google 引擎 独特 的 专利 技术 。 

超 文 本 匹配 分 析 。 引 擎 在 扫描 网 页 文本 的 基础 上 ,能 够 分 析 网 页 的 全 部 内 容 , 例 如 内 
容 字 体内 容 分 区 . 字 词 的 网 页 位 置 等 ;同时 能 够 分 析 相 邻 网 页 内 容 ,确保 搜索 的 返回 结果 
有 较 高 的 相关 度 。 
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关键 词 接近 度 分 析 。Google 引擎 不 仅 能 够 搜索 出 多 个 关键 词 的 结果 ,并 且 能 够 对 网 
页 关键 词 的 接近 度 进行 分 析 , 并 依据 接近 度 确定 搜索 结果 的 先后 顺序 ,从 而 提高 了 用 户 评 
价 、 选 择 和 利用 信息 的 效率 。 


11.4 Infoseek 搜索 引擎 


相对 于 百度 、 搜 狗 或 谷歌 而 言 ,大 学 生 们 不 是 很 熟悉 Infoseek 搜索 引擎 ,但 是 它 有 自 
己 独 特 的 搜索 服务 特色 。 比 如 InfoseekChina( 见 图 11-61) ,其 搜索 的 内 容 描 述 是 英语 ,这 
对 于 大 学 生 用 户 而 言 , 无 论 是 原版 的 英语 内 容 学 习 或 借鉴 参考 ,都 有 很 好 的 帮助 作用 。 因 

峙 网 在 全 球 日 益 普及 化 的 趋势 使 得 网 络 信息 资源 也 形成 了 全 球 化 格局 ,作为 网 络 信息 检 
索 工具 也 顺应 了 这 一 时 代 潮 流 。Infoseek 除了 美国 本 土 的 服务 版 本 外 ， 也 推 甸 
“InfoseekChina” “InfoseekFrance” “In[foseekItaly”、 “InfoseekJapan”、“ InfoseekUK” 等 
多 国家 或 地 区 服务 版 本 并 逐步 遍及 全 球 。 


InfoseekChina WD 


Map of China 苹 Ea A-Z Index 
Business | Entertainment | News | Reference | Travel 


图 11-61 InfoseekChina 搜索 引擎 主 界面 


1， JInfoseek 概述 

Infoseek 是 早期 最 重要 的 搜索 引擎 之 一 ,允许 站 长 提交 网 址 是 从 Infoseek 开始 的 。 
百度 创始 人 李彦宏 就 是 Infoseek 的 核心 工程 师 之 一 。Infoseek 是 Infoseek 公司 于 1995 年 
2 月 推出 的 万 维 网 搜索 引擎 , 它 是 一 个 综合 网 点 ,提供 很 多 有 用 的 附加 服务 ,包括 通过 电 
子 函 件 发 送 新 闻 、 外 国语 检索 、 按 地 理 区 域 的 检索 以 及 个 人 的 金融 文件 夹 等 ,Infoseek 庞 
大 的 全 文 数据 库 保证 了 查 全 率 , 而 它 独 特 的 检索 算法 和 一 些 新 增加 的 检索 功能 提高 了 查 
准 率 , 因 此 检索 精度 高 ,使 得 它 由 一 个 检索 工具 变 成 了 一 个 强大 的 信息 服务 中 心 。 它 基于 
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robot 的 数据 发 掘 技术 ,并 支持 搜索 结果 相关 性 排序 ,并 且 在 搜索 结果 中 使 用 了 网 页 自动 
摘要 技术 。 

2. 检索 方式 与 应 用 

实现 分 类 主题 一 体 化 。 在 Infoseek 的 主页 上 既 可 进行 分 类 检索 ,又 可 进行 主题 检索 ， 
更 可 贵 的 是 InfoSeek 的 Ultrasmart 和 Ultraseek 很 好 地 把 二 者 结合 起 来 , 供 不 同 层次 的 
用 户 选 择 使 用 。 从 人 们 思维 的 习惯 角度 考虑 ,对 那些 知道 自己 想 查 什么 却 又 不 能 用 词语 
确切 表达 出 这 种 需求 且 检 索 经 验 相 对 较 少 的 用 户 ,Ultrasmart 无 疑 给 他 们 提供 了 便利 。 
对 那些 检索 经 验 相对 较 丰 富 、 对 检索 所 花费 的 时 间 以 及 结果 的 准确 度 要 求 相 对 较 高 的 用 
户 ,Ultraseek 则 是 很 好 的 选择 。Ultrasmart 针对 网 络 信息 自身 特点 的 分 类 指南 和 
Ultraseek 针对 全 文 进行 索引 的 特性 仍 使 网 络 用 户 受 益 菲 浅 。 

1) Infoseek 目录 查询 

Infoseek 主页 上 的 检索 框 上 方 有 如 下 内 容 : ABC( 美国 广播 公司 )、Daytime (白天 )、 
Late Night( 夜 晚 )、Video( 视 频 )、News( 新 闻 )、Sports (体育 运动 )、Games (游戏 )、Shop 
(商店 ) 等 。 例 如 ABC news (美国 广播 公司 新 闻 ) 的 分 类 栏目 有 Good morning America 
( 早 安 美国 )、World news tonight ( 今 晚 世界 新 闻 )、prime time live( 全 盛 时 期 生活 )、 
lightline( 轻 线 )、World news now( 实 时 世界 新 闻 ) 等 。 

InfoseekChina 的 分 类 有 自己 的 特色 ,例如 图 11-62 所 示 的 主题 目录 有 Infoseek 中 国 
站 点 (包括 头条 新 闻 、 科 技 新 闻 、 娱 乐 新 闻 、 饮 料 新 闻 、 旅 游 新 闻 等 ) .中 国 新 闻 媒 体 ( 包 括 业 
务 、 地 区 、 娱 乐 . 运 动 , 全 国 、 科 技 、 博 客 与 报告 等 )、 中 国 站 点 行业 (航空 防卫 、 工 业 品 、 农 业 、 
保险 、 汽 车、 国际 贸易 、 银 行 等 )、 交 易 投 资 (深交 所 、 上 交 所 、 中 国 香港 交易 所 、 贸 易 与 投 
资 ) 等 。 

InfoseekWWW 页 面 查询 的 结果 是 ,每 一 记录 最 上 面 一 行 是 文件 名 字 以 及 超 文 本 文 
件 与 其 他 资源 的 接口 ;接着 是 对 文件 的 简单 描述 ,只 要 单 击 每 一 记录 最 上 面 一 行文 件 名 
字 , 就 可 进入 全 文 。 用 户 既 可 选择 某 一 项 进行 目录 检索 ,也 可 以 在 检索 框 输入 关键 词 进行 
检索 。 要 想得到 比较 满意 的 检索 结果 ,Infoseek 有 一 定 的 检索 规则 与 算 符 需 要 遵循 。 

2) Infoseek 字段 检索 

字段 检索 必须 遵守 一 定 的 语法 规则 : 字段 名 必须 小 写 , 字 段 名 后 紧 跟 冒号 ,冒号 与 检 
索 词 之 间 不 允许 有 空格 ,检索 词 只 能 是 一 个 单词 .一 个 短语 或 一 个 名 称 。 

(1) 单词 检索 与 词组 检索 。 在 检索 框 中 输入 与 主题 相关 的 一 个 或 多 个 单词 , 单 击 
Search 按钮 便 完成 了 一 次 检索 。 为 了 提高 检 全 率 ,Infoseek 支持 同义词 检索 ,可 以 在 检索 
框 中 同时 输入 几 个 含义 相近 的 单词 进行 检索 。 如 输入 restaurant (饭馆 )、cafe (餐馆 )、 
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a InfoseekChina Sites 
Beijing Top Stories China Technology News 
i 二 China Entertainment News China Beverage News 
Chongqing Ningbo China Travel & Tourism News China Sports News 
Dali Qingdao The Tales of Grasshopper 
Dalian Shanghai 
Dongguan Shenyang News Media in China | Top Stories 
Fuzhou Shenzhen Business Regional 
2 二 Entertainment Sports 
Ce i National Technology 
| Blogs & Reports 
Hong Kong ‘Wuhan 
| 和 Key Industries in China | News 
Ce mn Aerospace/Defense | News Industrial Goods | News 
Lhasa Agriculture | News Insurance | News 
Automotive | News Intl Bus & Trade | News 
Banking | News Marketing | News 
provinces in China Biotech & Pharma | News Metals & Mining | News 
Anhui Jiangxi Business Services Property Development | News 
Beijing Jilin Chemicals | News Retail | News 
a a Conglomerates | News Semiconductors | News 
Fujian a pomsumer Goods | News State-Owned Enterprises 
和 和 ee ey i ed 
nergy, Oi as | News elecommunications | News 
Guangdong Qinghai 
Food & Beverages | News Textiles | News 
Health & Wellness | News Transportation | News 
Hospitality | News Utilities | News 
Hainan Shanghai 
Hebei Shanxi Investing in China | News 
Heilongjiang Sichuan 
Exchanges & Investing Shenzhen Exchange 
Henan Tianjin 
Hong Kong Tibet Hong Kong Exchange Trade & Investment 
Hubei Xinjiang Shanghai Exchange 
| 一 -一 一 一 ， 
图 11-62 InfoseekChina 搜索 引擎 主 界面 分 类 目录 


bistro( 小 餐馆 、 小 酒店 ) ,从 而 在 一 定 程度 上 避免 了 漏 检 。 如 果 要 查找 必须 含有 某 词组 的 
网 页 ,有 两 种 方法 可 供 选 择 。 一 种 短语 需 用 双 引 号 (“”) 插 起。 例如 “world wide web”, 若 
不 用 双 引 号 ,Infoseek 将 查找 含有 world、wide 和 web 三 个 单词 的 网 页 ,检索 结果 相去 其 
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远 。 另 一 种 可 以 用 大 写字 母 形式 输入 词组 ,如 WorldWideWeb ,系统 查找 World、Wide、 
Web 三 个 单词 必须 紧 挨 在 一 起 的 网 页 。 

(2) 短语 检索 与 名 称 检索 。Phrase: 短语 检索 , 即 按 一 定 次 序 出 现 的 词 串 。 短 语 检索 
词 形 式 与 多 个 单词 组 合 检索 词 形式 的 区 别 在 于 短语 必须 用 双 引 号 括 起 。 如 
“yellowbrickroad”, 返 回 结果 中 将 包含 原 检 索 词 ,并 保持 固有 词 序 。 和 否则 Infoseek 将 被 视 
为 多 个 单词 的 组 合 ,返回 结果 中 可 能 包含 yellow brick ,road 中 的 一 个 或 几 个 单词 ,上 且 不 
一 定 保持 原 词 序 。 与 普通 检索 不 同 的 是 ,高 级 检索 中 的 短语 无 须 用 引号 括 起 。Name: 人 
名 、 公 司 等 名 称 检索 ,高 级 检索 中 的 名 称 可 以 不 采用 大 写 。word(s): 单词 查询 即 选择 一 
定 的 检索 词 形式 后 , 便 可 在 其 后 的 空白 框 内 输入 相应 的 检索 词 。 

Infoseek 的 普通 检索 支持 名 称 检索 ,包括 人 名 和 事物 名 称 , 它 们 必须 以 大 写字 母 开 
头 , 如 SharonStone。 如 有 两 个 或 两 个 以 上 的 名 称 同时 作为 一 个 检索 词 , 则 需要 用 逗号 将 
它们 分 隔 ,否则 将 被 视 为 一 个 短语 。 如 WhiteHouse,BillClinton 。 

(3) AND.OR 与 NOT 算 符 应 用 。AND 即 逻辑 与 运算 ,要求 查 找 的 网 页 必须 含有 某 
些 关键 词 ,如 检索 结果 中 必须 出 现 某 词 ,在 此 词 前 标 上 “十 ”如 cityguide 十 SanFran 一 
cisco。 例 如 输入 :十 ”troutfishing” 十 tackle equipment, 检 索 结果 必须 包含 trout fishing 
和 tackle, 而 equipment 可 有 可 无 。 增 强 了 检索 的 专 指 性 ,缩小 了 检索 范围 ,提高 了 信息 的 
查 准 率 。 需 要 注意 的 是 加 号 “十 ”与 其 后 面 的 关键 词 不 能 留 有 空格 。 

OR 即 人 逻辑 或 运算 ,用 空格 或 逗号 把 关键 词 分 开 , 表 示 查 找 的 网 页 不 必 同 时 包含 这 些 
关键 词 ,而 只 要 含有 其 中 任何 一 个 即 为 命中 结果 。 如 用 空格 表示 的 例子 : author writer 
novelist。 这 起 到 了 增加 检索 词 的 同义词 与 近义词 ,扩大 检索 范围 的 作用 ,提高 了 查 全 率 。 

NOT 即 逻辑 非 运算 ,如 检索 结果 中 排除 某 词 ,在 此 词 前 标 上 ”“-”, 如 Python-Monty。 
输入 ”small dog"-chihuahua ,查找 small dogs (小 狗 ) ,但 排除 Chihuahua (一 种 产 于 墨 西 
哥 的 吉娃娃 狗 ) 的 网 页 。 

(4) 大 小 写 敏 感 。 查 询 的 关键 词 , 若 用 其 小 写 形式 ,表示 任何 形式 都 匹配 。 如 输入 
california, 含 有 california、California 和 CALIFORNIA 的 网 页 都 会 出 现在 检索 结果 中 。 
但 用 大 写 形 式 California, 则 只 能 查 出 含有 California 的 网 页 。 

(5) 管道 符 检索 。 为 了 提高 检 准 率 ,Infoseek 在 相 邻 两 词 间 使 用 管道 符 “| ”, 表 明 对 
第 二 词 的 检索 只 在 第 一 词 的 检索 结果 范围 内 进行 ,比如 dogs| daluations。 比 如 dance| 
tango, 表 示 在 dance( 舞 蹈 ) 这 一 上 位 类 目下 检索 有 关 tango( 探 戈 ) 的 信息 ,得 到 约 40 万 条 
结果 信息 , 比 单纯 输入 dance 检索 得 到 500 万 条 结果 减少 了 不 少 无 用 信息 ,在 一 定 程度 上 
降低 了 误 检 。 另 一 种 方法 是 在 检索 结果 页 上 ,选择 Search within Result( 在 检索 结果 中 查 
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某 内 容 ) 框 ,输入 关键 词 , 同 样 可 以 进一步 缩小 检索 范围 。 此 外 ,Infoseek 还 允许 在 检索 框 
中 输入 多 个 单词 来 描述 检索 课题 。 如 : best pizza in SanFrancisco, 这 样 得 到 的 结果 较 之 
单个 语词 的 检索 ,其 准确 性 得 到 大 大 提高 。 

(6) 标题 检索 。 在 “title: ”后 输入 检索 词 ,此 检索 词 可 以 是 单元 词 也 可 以 是 用 双 引 号 
(“”) 插 起 来 的 短语 ,“title: "返回 网 页 文档 标题 中 包含 该 检索 词 的 信息 。 如 title: usedcar。 输 
入 title: stamp collecting ,查找 网 页 标题 名 含有 stamp collecting( 集 邮 ) 的 文档 。 

(7) 网 站 检索 。 在 "site: ”后面 输 入 网 站 域名 作为 检索 词 ，site: "返回 特定 站 点 下 的 
网 页 。 但 如 果 用 户 想 搜索 某 一 网 站 上 的 某 些 信息 ,在 “: ”与 后 面 的 网 站 域名 检索 词 之 间 
不 能 有 空格 ,检索 词 前 用 “十 ”号 ,如 十 site: travel city com 十 Miami。 例 如 需要 检索 美国 
广播 公司 ( ABCnews. com) 网 站 上 有 关 南 非 方面 的 文档 ,检索 式 是 site: abcnews. com 十 
SouthAfrica。 

(8) 网 址 检索 。 在 “url: ”后 输入 一 个 URL 名 称 。 输 入 url: travel, 将 查找 网 址 中 含 
有 travel 的 网 页 。“url:” 返 回 网 页 的 URL 中 包含 该 检索 词 。 

(9) 超 文本 链接 检索 。 与 某 站 点 链接 的 页 面 检索 ,在 /“Link: ”后 输入 要 查 与 此 链接 
的 Web 站 点 名 ,如 Link: yahoo.， com。 用 于 了 解 某 个 网 站 被 其 他 网 页 链接 的 数量 ， 
“link:” 返 回 的 网 页 必须 有 包含 其 后 检索 词 的 链接 。 如 输入 十 link: widgets. com-site: 
widgets，com, 查 找 除 自己 网 页 内 部 链接 以 外 的 所 有 链接 到 widgets. com 公司 的 网 页 ,以 
了 解 该 公司 网 站 受 欢迎 的 程度 。 

(10) 其 他 信息 查询 。 图 像 的 查询 ( imageseek: ) ,在 “imageseek:” 后 输入 要 查 图 像 名 
称 ; 在 网 页 的 文档 中 查找 ( Document: ) ,在 "Document: ”后 输入 要 查 文档 名 称 。 


11.5 雅虎 搜索 引擎 信息 检索 应 用 


1. 雅虎 概述 

1994 年 华人 杨 致 远 和 大 卫 ， 费 罗 在 美国 于 1994 年 创立 了 雅虎 。 雅 虎 (Yahoo!) 是 美 
国 著 名 的 互联 网 门户 网 站 ,也 是 20 世纪 末 互 联网 奇迹 的 创造 者 之 一 。 其 服务 包括 搜索 引 
擎 .电邮 、 新 闻 等 ,业务 遍及 24 个 国家 和 地 区 ,为 全 球 超 过 5 亿 的 独立 用 户 提供 多 元 化 的 
网 络 服务 ,同时 也 是 一 家 全 球 性 的 因特网 通信 、 商 贸 及 媒体 公司 。 雅 虎 是 最 老 的 “分 类 目 
录 ” 搜 索 数据 库 , 也 是 最 重要 的 搜索 服务 网 站 之 一 ,在 全 部 互联 网 搜索 应 用 中 所 占 份额 较 
大 。 所 收录 的 网 站 全 部 被 人 工 编辑 按照 类 目 分 类 ,其 数据 库 中 的 注册 网 站 无 论 是 在 形式 
上 还 是 内 容 上 质量 都 非常 高 。 新 一 代 雅 虎 搜索 引擎 的 首页 采用 搜索 引擎 一 贯 的 简洁 风 
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格 , 以 雅虎 搜索 的 搜索 框 为 主体 ,集中 突出 地 体现 出 搜索 的 概念 。 见 图 11-63 。 


YAHOOI 
图 11-63 Yahoo! 搜 索引 擎 主 界面 


2. 雅虎 搜索 引擎 的 搜索 技术 

美国 雅虎 最 早 以 人 工分 类 和 网 址 收集 见长 ,特别 是 随后 斥 26 亿美 元 收购 了 可 以 与 
Google 匹敌 的 Inktomi、Overtune( 全 球 最 大 的 搜索 广告 商务 提供 商 ), Fast、AltaVista、 
Kelkoo( 欧 洲 第 一 大 竞价 网 站 ) 五 家 国际 知名 搜索 服务 商 后 ,经 过 近 一 年 的 消化 和 二 次 开 
发 ,雅虎 在 整合 众多 核心 技术 的 基础 上 推出 了 YST 技术 。 和 雅虎 搜索 引擎 技术 ( Yahool 
search engine technology, YST) 是 一 套 基于 算法 的 Web 索引 抓 取 程序 ,能 够 自动 探测 网 
络 内 容 。YST 这 套 机 器 搜索 程序 从 因特网 上 采集 文档 ,建立 起 一 个 可 搜索 的 索引 系统 。 
这 些 文件 ( 即 用 户 的 网 站 文件 ) 能 被 YST 程序 发 现 和 抓 取 的 主要 原因 是 ,在 因特网 其 他 的 
网 页 上 包含 有 这 些 文档 的 直接 链接 。YST 搜索 程序 严格 遵守 robots. txt 标准 执行 抓 取 。 
因此 ,对 于 那些 您 不 希望 被 雅虎 搜索 引擎 返回 的 结果 ,搜索 程序 不 会 执行 抓 取 。 任 何 被 
robots. txt 标准 认为 不 适宜 抓 取 的 文件 , 既 不 会 被 包括 在 抓 取 文档 中 ,也 不 会 进入 到 搜索 
引擎 的 数据 库 。 目 前 ,YST 已 经 成 为 国际 两 大 顶级 网 页 搜索 引擎 之 一 ,也 是 全 球 使 用 量 
最 高 的 网 页 搜索 引擎 之 一 。 

3. 雅虎 搜索 引擎 的 基本 搜索 功能 

雅虎 网 页 搜索 界面 简洁 明朗 ,使 用 方法 也 非常 简单 ,输入 想 要 查找 的 关键 字 , 单 击 “ 雅 
虎 搜 索 ” 即 可 。 雅 虎 默 认 的 设置 是 搜索 英文 结果 的 网 页 。 所 要 检索 的 关键 字 可 以 是 词语 ， 
也 可 以 是 短语 或 句子 。 但 应 注意 的 是 ,如 果 以 短语 或 句子 作为 关键 词 , 则 必须 在 两 端 添加 
英文 输入 法 状态 下 的 双 引 号 ,否则 雅虎 将 把 短语 或 句子 视 为 若干 独立 词语 ,从 而 同时 搜索 
包含 这 几 个 词语 的 网 页 。 例 如 以 “网 络 视频 会 议 ” 为 关键 词 进 行 检索 :;“network video 
conference”, 若 加 了 英文 双 引 号 ,Yahoo 将 搜索 所 有 包含 “network video conference” 整 句 
的 网 页 ;车 不 加 引号 , 则 雅虎 将 搜索 含有 “network”、“video”、“conference”、“network 
video”、“video conference” 等 词语 或 词组 的 网 页 。 见 图 11-64。 

雅虎 搜索 引擎 不 区 分 英文 字母 大 小 写 , 输 入 “yahoo” 和 “YAHOO”, 所 得 结果 都 是 一 
样 的 。 用 户 若 需要 查找 特定 语言 的 网 页 ,只 需要 在 高 级 搜索 的 “ 按 语言 搜索 ”中 自行 设 定 
即 可 。 雅 虎 目 前 支持 搜索 用 英文 中文、 法 文 . 德 文 . 俄 文 、 韩 文 等 40 种 语言 。 

使 用 雅虎 进行 搜索 ,多 数 的 搜索 结果 都 会 包含 网 址 链接 、 文 摘 、 网 页 快照 和 类 似 网 页 
四 项 。 雅 虎 的 文摘 不 是 通常 的 那 种 网 站 简介 ,而 是 对 网 页 中 那些 与 关键 字 最 为 相关 的 内 
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ome Mai ok js Fingnos elebrit eather Answers 
YAHOO! | "network video conference " | seam | 


Web Images Video News More~ Anyime~ 


Also try eye network video conference, local network video conference 


Eyenetwork 
Www.eyenetwork Com v 
Video conference semces. equipment and worldwide facilities hire from Eyenetwork 


Video Conferencing Server Software: Works via... 

trueconf.com ,Products ,TrueConf Server 

TrueConf's video conferencing server software is a unified communications platform for UltraHD 
group video conferences. Up to 250 users over any type of network 


图 11-64 ”yahoo 检索 词语 加 双 引 号 后 的 检索 实例 


容 的 摘录 ;网 页 快照 则 是 雅虎 对 它 所 访问 过 的 网 页 的 备份 ,这 项 功能 使 得 用 户 在 存 有 网 页 
的 服务 器 出 现 故 障 时 仍 可 浏览 该 网 页 的 大 致 内 容 ; 类 似 网 页 则 是 与 当前 网 页 内 容 相 关 的 
其 他 网 页 ,方便 用 户 进行 对 比 和 参考 。 一 次 搜索 往往 会 得 到 数量 庞大 的 结果 ,如 何在 这 些 
结果 中 为 用 户 选 出 那些 最 大 价值 的 项 目 是 每 个 搜索 引擎 首先 要 考虑 的 问题 。 与 Google 
和 百度 不 同 的 是 ,Yahoo 在 搜索 结果 页 面 的 右边 设置 了 “按照 时 间 ( 一 周 内 ,一 月 内 ,三 月 
内 )” 和 “按照 格式 (word、ppt、PDF 以 及 专业 文档 ) "两 种 筛选 结果 ,便于 用 户 能 按照 时 间 、 
格式 迅速 查找 。 如 PDF 文档 在 国际 上 被 作为 标准 格式 普遍 使 用 ,一 般 而 言 , 网 络 上 以 
PDF 格式 存储 的 信息 往往 内 容 比 较 正 式 , 价 值 也 相对 高 一 些 。 直 接 单 击 搜索 结果 页 面 的 
右边 的 PDF 按钮 ,就 会 出 现 所 需 资料 的 所 有 PDF 文档 ,雅虎 会 在 其 标题 前 冠 以 深 色 的 
“[ PDFJ]” 字 样 。 

4. 雅虎 搜索 引擎 的 搜索 常识 与 技巧 

如 果 用 户 已 知 要 查找 内 容 的 主题 概念 ,就 可 以 利用 关键 词 检索 方式 ,在 检索 框 中 输入 
要 找 的 关键 词 ,然后 单 击 “ 搜 索 ” 按 钮 ,雅虎 就 会 在 数据 库 中 查找 与 关键 词 匹 配 的 记录 ,并 
将 符合 检索 条 件 的 结果 显示 出 来 。 使 用 关键 词 检索 还 有 简单 方法 与 复杂 方法 之 分 : 简单 
方法 就 是 将 关键 词 直 接 输 入 检索 文本 框 中 ,可 以 输入 一 个 词 , 也 可 以 输入 几 个 词 , 并 对 检 
索要 求 不 加 限制 ,系统 在 处 理 时 会 按照 自身 的 规则 将 用 户 的 查询 字符 串 分 为 几 个 部 分 ,这 
样 返回 的 结果 可 能 与 用 户 想 要 的 信息 相差 甚 远 ; 而 复杂 方法 (或 高 级 检索 ) 就 是 利用 字段 
限定 符号 和 限制 选项 构造 复杂 的 检索 表达 式 来 进行 检索 ,这 样 会 获得 比较 准确 的 查询 结 
果 。 雅 虎 支持 以 下 几 种 限定 检索 操作 符 。 
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(1) 用 引号 (“”) 来 查询 完全 符合 关键 词 字符 串 的 网 页 。 

(2) 在 关键 词 前 加 ”t: ”, 搜 索引 擎 仅 限 在 网 站 名 称 中 查找 网 页 。 

(3) 在 关键 词 前 加 ”u: ”, 搜 索引 擎 仅 限 在 URL 中 查找 网 页 。 

(4) 在 关键 词 前 加 "十 ”, 查 询 结果 中 一 定 要 出 现 *“ 十 ?号 后 面 的 字符 串 。 

(5) 在 关键 词 前 加 ”一 ”, 查 询 结 果 中 一 定 不 能 出 现 ” 一 ”号 后 面 的 字符 串 。 

(6) 雅虎 搜索 的 默认 的 设置 是 包含 用 户 输入 的 所 有 关键 字 。 包 含 关 键 字 : 要 在 加 入 
的 词 前 输入 一 个 空格 。 例 如 ,用 户 要 搜索 Paul Grein 的 歌曲 ,可 以 在 “Paul Grein” 后 面 输 
入 一 个 空格 ,再 输入 "music”, 就 能 得 到 有 Paul Grein 歌曲 的 网 站 。 

(7) 在 要 加 入 的 词 前 输入 半角 的 加 号 "十 ”。 如 果 用 户 要 搜索 Paul Grein 的 歌曲 ,可 
以 输入 Paul Grein + music, 出 现 的 搜索 结果 就 是 带 有 Paul Grein 歌曲 的 网 站 。 

(8) 去 除 关键 字 : 与 包含 关键 字 相 反 , 想 要 去 除 一 个 关键 字 , 用 户 需要 在 这 个 词 前 输 
入 减 号 ”一 ”, 但 在 减 号 之 前 必须 留 一 个 空格 。 例 如 ,用 户 想 要 找 除了 摇 深 以 外 的 音乐 信 
息 ,只 要 在 搜索 框 里 输入 "music Rock”( 注意 ,music 后 要 加 空格 ) 即 可 。 

(9) 尝试 使 用 特定 的 搜索 词汇 去 描述 要 找 的 内 容 。 通 常 ,比较 广义 的 关键 字 搜 索 出 
来 的 结果 会 很 多 ,而 当 用 户 想 要 更 精确 的 搜索 结果 时 ,最 好 选用 一 些 狭义 的 关键 字 做 搜 
索 。 如 用 “digital camera” 取 代 *camera”。 


本 章 小 结 


作为 新 时 代 的 大 学 生 , 应 用 搜索 引擎 去 充分 发 现 . 认 识 、 查 询 、 获 取 和 有 效 利用 网 络 信 
息 ,不 仅 是 大 学 生 信息 检索 素养 的 重要 组 成 部 分 ,也 是 开展 自主 学 习 、 协 同学 习 、 探 究 性 与 
研究 性 学 习 的 基础 性 信息 素养 及 其 内 在 要 求 。 搜 索引 擎 (search engine) 是 一 种 网 络 化 信 
息 检索 系统 与 检索 应 用 工具 ,能 帮助 用 户 在 浩瀚 的 网 络 资源 环境 中 快速 而 高 效 地 查询 到 
所 需要 的 信息 。 搜 索引 擎 是 一 种 能 够 通过 网 络 接收 用 户 的 查询 指令 ,并 向 用 户 提供 符合 
其 查询 要 求 的 信息 资源 网 址 或 资源 路 径 的 智能 系统 。 

作为 普通 用 户 而 言 ,经常 接触 到 的 是 网 络 搜索 引擎 的 用 户 检索 交互 界面 。 用 户 检索 
交互 界面 是 搜索 引擎 各 种 检索 实现 功能 在 用 户 接口 层面 直接 而 形象 的 表达 ,屏蔽 了 搜索 
引擎 所 应 用 的 各 种 检索 原理 、 检 索 技 术 与 数学 逻辑 过 程 。 用 户 检 索 交 互 界 面 的 作用 是 接 
收 用 户 的 各 种 查询 输入 .显示 查询 结果 、 提 供 相关 反馈 信息 。 用 户 检索 界面 包括 简单 检索 
界面 和 高 级 检索 界面 两 类 。 简 单 检索 界面 只 提供 用 户 输入 查询 字符 串 的 文本 框 ,高 级 检 
索 界 面 提供 用 户 按照 各 类 检索 模型 的 查询 机 制 (例如 查询 范围 限制 .信息 筛选 与 过 滤 、 多 
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个 检索 词 之 间 的 逻辑 组 配 等 ) 。 

本 章 详细 阐述 了 大 学 生 常 用 的 搜索 引擎 ,包括 百度 搜狗、 谷歌 .雅虎 和 Infoseek, 重 
点 说 明了 它们 的 多 种 搜索 服务 功能 与 主要 信息 查询 方法 。 第 一 ,用 户 要 了 解 和 熟悉 搜索 
引擎 的 各 种 服务 产品 ,例如 百度 搜索 有 百度 学 术 、 网 页 视频、 音乐. 新闻、 图 片 软 件 等 二 
十 多 种 服务 产品 。 第 二 ,大 学 生 用 户 要 逐步 养 成 应 用 高 级 检索 功能 和 搜索 个 性 设置 的 良 
好 检索 习惯 ,以 利于 提高 检索 结果 的 效率 与 准确 性 。 第 三 ,不 同 的 搜索 引擎 都 有 自身 的 特 
色 ,注意 掌握 一 些 常 用 搜索 技巧 ,例如 查询 词 的 明确 表达 与 简练 化 、 检 索 词 的 精确 匹配 、 指 
定 网 站 或 指定 网 页 内 搜索 .特定 检 索 语 法 的 应 用 等 。 


本 章 思 考 与 练习 题 


. 什么 是 搜索 引擎 ? 常用 的 搜索 引擎 有 哪些 ? 
. 请 举例 说 明 你 使 用 搜索 引擎 有 哪些 方法 。 
. 百度 引擎 有 哪些 核心 技术 ? 
. 百度 引擎 有 哪些 主要 信息 搜索 服务 产品 ? 
. 百度 引擎 移动 搜索 端 与 PC 搜索 端 有 差异 吗 ? 请 举例 说 明 。 
. 百度 网 页 搜索 有 哪些 主要 方式 ?分 别 举例 说 明 。 
. 百度 引擎 的 常用 检索 技巧 有 哪些 ?分 别 举例 说 明 。 
. 搜狗 搜索 入 门 应 该 从 哪 几 个 方面 着 手 ? 
. 不 能 正常 访问 搜狗 引擎 有 哪些 常见 的 解决 办 法 ? 
10. 使 用 搜狗 搜索 有 哪些 主要 技巧 ? 
11. 搜狗 搜索 与 百度 引擎 的 高 级 检索 有 差异 吗 ? 请 举例 说 明 。 
12. 搜狗 信息 搜索 服务 有 哪些 主要 服务 产品 ? 
13. Google 与 Baidu 搜索 引擎 的 翻译 功能 有 差异 吗 ? 翻译 准确 度 方 面 有 差异 吗 ? 请 
举例 说 明 。 
14. 举例 说 明快 捷 有 效 的 Google 特殊 操作 符 的 搜索 应 用 如 何 。 
15. Google 信息 检索 有 哪些 实用 功能 ? 
16. Google 高 级 搜索 有 哪些 主要 功能 ?请 举例 说 明 。 
17. Infoseek 有 哪些 主要 的 检索 应 用 方法 ?请 举例 说 明 。 
18. 雅虎 搜索 引擎 有 哪些 基本 的 搜索 功能 ? 请 举例 说 明 。 
19. 使 用 雅虎 搜索 引擎 应 该 注意 哪些 搜索 常识 与 技巧 ? 请 举例 说 明 。 


Co 和 NPN 人 wDL- 
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对 于 大 学 生 或 科技 工作 者 而 言 ,特种 信息 资源 是 指出 版 发 行 和 获取 途径 都 比较 特殊 
的 科技 类 信息 资源 ,通常 也 指 除 了 普通 图 书信 息 资 源 和 期 刊 信息 资源 之 外 的 特种 科技 信 
息 资源 。 它 们 通常 包括 会 议 文献 信息 资源 .科技 报告 信息 资源 ,专利 信息 资源 、 学 位 论文 
信息 资源 ,标准 信息 资源 、 科 技 档案 信息 资源 政府 出 版 物 信息 资源 七 大 类 。 特 种 信息 资 
源 特色 鲜明 、 内 容 广 泛 、 数 量 庞大 、 学 习 与 研究 及 其 参考 价值 高 ,在 整个 信息 资源 与 信息 检 
索 及 其 利用 过 程 中 起 着 非常 重要 的 作用 。 特 种 信息 资源 的 载体 形式 丰富 ,除了 光盘 与 印 
刷 型 纸 质 载体 外 ,目前 大 多 数 也 以 网 络 数据 库 的 形式 提供 检索 服务 。 


12.1 科技 报告 信息 资源 检索 


12.1.1 科技 报告 的 概念 与 特征 

1. 科技 报告 的 概念 

科技 报告 (scientific &. technical report) 是 指 对 科学 、 技 术 研 究 成 果 或 研究 进展 的 记 
录 , 也 称 研 究 报告 或 报告 文献 。 科 技 报告 的 出 现 早 于 科技 期 刊 ,在 科学 交流 制度 化 之 前 科 
技工 作者 们 就 已 经 生成 各 类 科技 报告 了 。 但 是 ,作为 一 种 传递 科技 信息 的 特定 类 型 的 信 
息 资 源 , 其 历史 能 追溯 到 20 世纪 初 。 当 时 ,只 是 研究 者 或 设计 单位 向 经 费 支 助 机 构 提 交 
关于 研究 或 设计 任务 完成 情况 以 及 财务 支出 情况 的 报告 ,大 量 的 研究 成 果 以 内 部 报告 交 
流 的 形式 出 现 。 

2. 科技 报告 的 特征 

(1) 内 容 特征 。 一 是 迅速 反映 新 的 科研 成 果 , 以 科技 报告 形式 反映 科研 成 果 比 这 些 
成 果 在 期 刊 上 发 表 , 一 般 要 早 一 年 左右 ,有 的 则 不 在 专业 期 刊 上 发 表 。 第 二 是 内 容 多 样 
化 ,科技 报告 几乎 涉及 整个 科学 .技术 领域 和 社会 科学 以 及 部 分 人 文科 学 领域 。 第 三 是 保 
密 性 ,大 量 科技 报告 都 与 政府 的 研究 活动 、 高 新 技术 有 关 , 使 用 范围 控制 较 严 ,一 般 只 在 同 
类 性 质 的 机 构 内 部 交流 ,公众 难以 获取 。 最 后 是 真实 性 和 专业 性 ,科技 报告 反映 的 内 容 直 
接 来 自 实 际 工 作 和 研究 ,有 大 量 的 事实 数据 结论 .建议 等 ,阅读 对 象 也 主要 是 专业 对 口 
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的 科技 人 员 和 管理 人 员 ,审查 也 多 是 专业 人 员 和 机 构 。 

(2) 形式 特征 。@ 每 份 报告 都 有 统一 编排 的 报告 号 ,报告 号 通常 是 以 研究 的 执行 机 
构 或 主管 部 门 的 缩写 字母 加 上 顺序 号 组 成 ,一 般 不 会 变更 。 报 告 号 既是 每 份 科 技 报告 的 
入 藏 . 排 架 号 ,又 是 提供 使 用 .复制 和 订购 时 的 索取 号 。@ 具 有 统一 的 格式 和 比较 完整 的 
信息 标识 项 目 。 科 技 报告 的 篇 幅 不 受 限 制 , 可 长 可 短 。 少 的 几 页 ,多 的 数 千 页 。 但 不 管内 
容 多 少 , 都 有 统一 的 编写 规格 ,主要 包括 报告 题名 .统一 封面 .目次 ,文摘 序言、 报告 主体 
和 附录 等 。 同 时 报告 标题 ` 人 藏 号 .团体 著者 .报告 号 .个 人 著者 ,任务 号 合同 号 等 均 加 以 
数据 标 引 。 具 有 元 长 的 篇 名 。 这 是 科技 报告 不 同 于 其 他 信息 源 的 最 突出 的 特点 。 图 
书 、 期 刊 .专利 ,标准 等 文献 信息 的 篇 名 ,一 般 只 有 2~5 个 主题 词 或 关键 词 ,而 科技 报告 由 
于 专业 技术 性 强 、 内 容 具 体 ,所 以 篇 名 特别 长 ,一 般 有 5 一 15 个 关键 词 。 科 技 人 员 只 需 看 
篇 名 即 可 了 解 其 大 致 内 容 。@ 每 份 报告 为 一 项 专题 材料 , 自 成 一 其。 


12.1.2 科技 报告 的 类 型 与 编码 

1. 科技 报告 的 类 型 划分 

(1) 按 科 技 报 告 反 映 的 研究 阶段 划分 : 四 初期 报告 (primary report) 或 开题 报告 ,是 
研究 机 构 对 研究 项 目的 一 个 计划 性 报告 ; @ 中 期 报告 或 过 程 报告 ,如 研究 过 程 中 的 现状 
报告 (status report) 、 预 备 报告 (preliminary report) 、 中 期 报告 (interim report) 、 进 展 报告 
(progress report) , 非 正 式 报 告 (informal report); @ 结 题 报 告 或 总 结 报告 , 即 研 究 工作 结 
束 时 的 报告 ,如 总 结 报告 (final report) 、 综 述 报告 (definitive report) 、 试 验 结果 报告 (test 
results report)、 竣 工 报告 (completion report)、 正 式 报告 (formal report) 和 公开 报告 
(public report) 等 。 

(2) 按 报告 的 使 用 秘密 等 级 划分 : 四 秘密 报告 (secret report), 分 为 绝密 报告 (top 
secret report) ,机 密 报告 (confidential report) 和 秘密 报告 (secret report) 三 类 , 供 少数 人 
员 查 阅 ; @@ 非 密 / 限 制 发 行 报告 (unclassified/limited or restricted report) ,只 在 规定 范围 
内 发 行 ,数量 也 有 限定 ; @ 解 密 报 告 (declassified report), 即 曾经 是 保密 的 科技 报告 ,但 经 
过 一 段 时 间 后 失去 保密 意义 ,解密 为 公开 发 行 的 报告 ; @ 非 密 / 解 除 限 制 发行 报 告 
(unclassified/ delimited report) 等 。 

(3) 按 报告 的 内 容 性 质 划 分 : 有 科学 报告 (science report)、 技 术 报 告 (technical 
report) 工程 报告 (engineering report)、 调 查 报 告 (investigation report)、 人 研究 报告 
(research report)、 专 门 报告 (special report)、 分 析 报 告 (analysis report)、 会 议 报告 
(conference report) ,评估 报告 (evaluation report)、 专 题 报告 (topical report)、 交 流 报告 
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(circular report) .生产 报告 (production report) ,经 济 报告 (economic report) 等 许多 类 型 。 

2. 科技 报告 的 编码 

科技 报告 都 有 一 定 的 编号 特征 ,但 各 个 系统 和 单位 的 编号 方法 并 不 一 致 。 科 技 报告 
的 常见 代号 一 般 有 以 下 几 种 类 型 。 

(1) 机 构 代 号 : 机 构 代 号 是 科技 报告 编码 的 重要 部 分 ,一 般 用 编辑 .出 版 、 发 行 机 构 名 
称 的 首 字 母 ,标识 在 报告 代号 的 首位 。 

(2) 类 型 代号 : 主要 代表 科技 报告 的 类 型 。 有 的 用 缩写 字母 表示 ,如 PR 报告 (进展 
报告 ); 有 的 用 数字 表示 ,如 DOE 报告 的 “TID-5000” 代 表 研 究 发 展 报告 等 。 

(3) 密级 代号 ; 代表 科技 报告 的 保密 情况 。 如 ARR (绝密 报告 ) .SC 机 密 报 告 )`C( 秘 
密 报告 )、R( 控 制 发 行 报 告 );、U( 非 保密 报告 ) 等 。 

(4) 分 类 代号 : 用 字母 或 数字 表示 报告 的 主题 分 类 ,如 P 一 一 物理 学 (Physics) 等 。 

(5) 日 期 代号 和 序号 : 用 数字 表示 报告 出 版 发 行 年 份 或 报告 的 顺序 号 ,例如 STAN 
CS 一 92 一 920, 即 STAN 一 CS( 机 构 ) 一 92( 年 份 ) 一 920( 序 号 ) 等 。 


12.1.3 国内 科技 报告 与 商业 报告 资源 的 信息 检索 

1. 国家 科技 成 果 网 

(1) 概述 。 国 家 科技 成 果 网 (http://www. tech110. net/ portal. php) 是 由 中 华人 民 共 和 
国 科技 部 科技 成 果 管 理 办 公 室 和 中 国 化 工 信 息 中 心 承办 的 一 个 全 国 性 科技 成 果 信息 服务 平 
台 , 主 要 设置 了 成 果 查 询 .成果 登记 、 成 果 公 报 、 成 果 统 计 分 析 . 网 上 成 果 展 等 信息 资源 内 容 。 

(2) 成 果 的 简单 检索 。 网 站 包括 了 国内 各 个 科技 领域 的 重要 成 果 。 首 先 在 主 界面 的 
菜单 条 上 单 击 “ 成 果 ”, 然 后 在 输入 框 中 输入 要 搜索 的 成 果 关 键 词 , 单 击 “ 搜 索 ” 按 钮 后 就 可 
实现 科技 成 果 的 简单 检索 。 见 图 12-1。 


一 国 科 网 


AST 
sgn 


国家 科技 成 果 信 息 服 务 平台 


成 果 ”vv'| 请 办 


热门 搜索 : ”激光 高 分 子 石油 并 网 纳米 太阳 能 光伏 高 级 搜索 


图 12-1 国家 科技 成 果 网 一 般 检索 用 户 界 面 
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(3) 分 类 目录 检索 。 如 果 不 确定 自己 详细 的 检索 需求 和 不 能 拟定 准确 的 检索 词 , 可 
以 依据 其 详细 的 一 级 .二 级 和 三 级 目录 进行 细 化 。 其 中 一 级 目录 有 六 大 类 :“ 农 业 ， 化 
工 ”“ 生 物 。 医药 ”“ 能 源 。 采矿 、 “建筑 。 水利"“ 交 通 。 运输” 和 “自然 。 社 科 ”。 

@ 假设 用 户 需求 以 交通， 运输 ?为 例 ,其 详细 的 一 级 、 二 级 和 三 级 目录 如 图 12.2 
所 示 。 


成 果 | 专家 | 机构 登记 统计 排行 政策 博客 论坛 B58 | C0106+444088 
农业 -化 工 综合 运输 。 | 综合 运 斩 体制 与 结构 | 城市 交通 运输 | EN 卡 售 箱 | 联运 加 
eR | ZH | 和 | | 6 

| 铁路 运输 。 | 忽 喀 线路 工程 | 电气 化 扶 路 | 特 科大 路 | 铁路 术 函 工程 | 机 车 工程 | 在 辆 IT 程 > 
生物 -医药 | 入、 信 | 4 管理 I 香 

| | I | eT | or 如何 快速 
能 时 -采矿 和 各 54 二 准确 的 找 

到 成 果 ? 
能 源 石 由 原 了 能 矿业 疤 全 全 时 kB 。 | 航 遂 工程 | 函 豚 建 这 攀 与 设备 | 洪 口 工程 | 贻 和 工程 | 水 中 运输 技术 管理 
建筑 -水 利 航空 亲 天 。| 航 宇 、 航 天 技术 的 研究 与 探索 | 航空 | 航天 (宇宙 航行 ) 
过 流水 和 电工 全 化 工程 
4 人吉 。 | 机 续 、 人 吉 工 上 经济 | 机 术 | 机 桩 设计 、 计 和 与 因 | 机 林 兴 件 及 传动 和 
| 机 械 制造 用 材料 | 机 械 制 渤 工艺 | 机 械 运行 与 维修 | 机 械 工 三 | 起 重 机 械 与 运输 机 械 © 
| 系 | 气 人 区 编 加 机 村 | 寺 用 机 析 与 设备 | 人 各 、 公 表 - 
快 
电子 测 仿 。 | 真 S 电 子 技术 | 光志 子 技术 、 革 技术 | 半 呈 村 技术 | 入 电子 学 、 集 屿 电路 (IC) ee 
自然 - 社 科 | 电子 元 件 , 组 件 | 基本 电子 电路 | 无 线 电 设备 、 电信 设备 下 | 天 二 信 | 广播 
ee | 吉 | 辣 和 | 于 各 SK | 电 了 NK | 型 掀 ,由 失 


图 12-2 国家 科技 成 果 网 的 分 类 目录 检索 实例 


@ 通过 图 12-2, 选 择 三 级 目录 下 的 “无 线 电 设备 .电信 设备 "后 ,返回 检索 结果 2283 
项 。 为 了 便于 用 户 对 比 、 细 化 筛选 条 件 和 检索 范围 ,国家 科技 成 果 网 进行 了 详细 的 成 果 分 
类 统计 ,实例 如 图 12-3 所 示 。 

单 击 “ 高 级 搜索 ”按钮 , 即 可 进入 高 级 检索 界面 。 在 这 个 页 面 中 可 以 设置 更 灵活 的 搜 
索 条 件 , 来 完成 更 复杂 的 查询 。 

检索 结果 以 列表 的 方式 显示 成 果 名 称 ,每 页 只 能 显示 20 条 。 单 击 成 果 名 称 ,可 浏览 
成 果 详 细 信 息 。 免 费 会 员 仅 能 看 到 成 果 题 录 信息 和 文摘 ,如 要 看 全 文 , 需 交 纳 相 应 费用 成 
为 付费 会 员 才 可 看 到 。 

(4) 高 级 检索 。 国 家 科技 成 果 网 的 高 级 检索 主要 提供 关键 词 或 主题 词 的 与 (AND)、 
或 COR) . 非 C(CNOT) 三 种 布尔 逻辑 检索 以 及 检索 项 的 查询 筛选 控制 。 检 索 项 的 查询 筛选 
控制 条 件 包 括 成 果 类 别 .关键 词 .技术 成 熟 度 成果 简介 应 用 行业 .登记 日 期 .课题 来 源 等 
近 20 项 内 容 , 高 级 检索 界面 实例 如 图 12-4 所 示 。 

2. 万 方 中 文 科技 报告 数据 库 

我 国 研 究 成 果 的 统一 登记 和 报道 工作 是 从 1963 年 正式 开始 的 。 凡 是 有 科研 成 果 的 
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“元 纺 电 设备 、 电 信 设 条 (TN8)" 相关 成果 共 找到 2283 个 结果 。 已 选 条 件 : 


成 果 类 别 应 用 技术 (2254) ” 软 科学 (2) ”基础 理论 C7) 


单位 所 在 省 市 广东 省 (319) ”江苏 省 (240) 上海 市 [201) 北京 市 (195) 浙江 省 (164) ”陕西 省 (151) ”四 川 省 (124) 天津 市 (106) “安徽 省 (104) 
课题 未 源 国家 科技 计 其 (176) 自选 课题 (430) ”民间 基金 (3) ” 攀 句 委托 (38) ”国际 合作 (1) ”地 方 基 全 (47) 部 门 基金 (22) ”地 方 计划 (180) 


所 属 高 新 技术 类 别 。 电子 信息 (1250) 先进 制造 (192) 航空 航天 (16) ”现代 交通 (0) ”生物 医药 与 医疗 器 醋 (1) ”新 材料 (69) ”新 能 源 与 节能 (45) 


应 用 杖 态 产业 化 应 用 (913) ”小 批量 或 小 范围 应 用 (24) ”试用 (13) ”应 用 后 信用 (4) ”未 应 用 (62) 

推 六 形式 其 他 (524) ”技术 服务 (172) ”合作 开发 (119】 产权 转让 (62) ”技术 入 股 (53) ”资金 入 服 (48) 

成 果 发 布 年 份 2007(284) 2002(205) 2006(190) 2001(161) 2009(150) 2004(140) 2012(139) 2003(137) 2010(131) 2011(117) 
研究 形式 独立 研究 (856) 与 企业 合作 (66) 与 院 校 或 这 所 合作 (0) “与 国外 合作 (0) ”其 他 (26) 

成 果 体现 形式 新 技术 (302) ”新 工艺 (0) ”新 产品 (476) 新 材料 (28) 农业、 生物 新 品种 (0) ”矿产 新 品种 (0) ”新 装备 (30) ”其他 应 用 技术 (0) 
应 用 行业 农 、 林 \ 牧 、 闻 业 D) 采矿 北 (0) 制造 业 (1870) 电力、 热力、 燃气 及 水 的 生产 和 供应 4(48) ”建筑 半 (2) 批发 和 要 售 业 (3) 
技术 成 熟 度 和 有 把 (94) 。 中 其 了 8 段 (237) 成 熟 应 用 阶段 (687) 

单位 属性 独立 科研 机 构 (97) 大专 院 校 (156) 企业 709) 医疗 机 构 (4) ”其 他 (49) 

成 果 完 成 人 庚 洪 (11) ” 吴 德 加 (11) 张 下 (10) 王 伟 (10) 王 勇 (9) 王 文 (9) 李 树 林 (9) 王政 (8) 杨 继 毕 (8) 张 勇 (8) 茂 绍 珍 (8) 
技术 水 平 国际 领先 (99) ”国际 先进 (321) 国内 领先 (540) ”国内 先进 (181) 国内 一 般 (109) 

中 图 分 类 显示 设备 、 显 示 器 (427) 电源 (336) ”光纤 传输 线 、 光 贺 (230) 天 线 75) 其 他 (44) 列 试 、 调 整 及 设备 (42) 

成 困 登 记 日 其 1997-10-31(66) ”1998-10-31(26) 1995-10-31(23) 1996-10-31(22) 1993-10-31(22) 1994-10-31(20) 1999-10-31(11) 


更 多 


更 多 


更 多 


更 多 


更 多 
更 多 


图 12-3 三 级 目录 "无线电 设备 .电信 设备 "的 检索 结果 实例 


| 会 》 首页 搜索 中 心 》 高 吸 控 索 


雪上 


AND 四 | 

AND 四 

回 添 M0 行 | 珊 

控 索 过 项 

成 果 登记 日 期 : 至 [ 从 式 : 

成 果 发 布 年 份 : 至 | [5 
日 租 关 性 日 

每 页 旦 示 条 目 数 : -es 


Copyright 2001-2020 Al Rights Reservede 国 科 风衣 JS 


国家 科技 成 果 信 息 服务 平台 主管 单位 : 国家 科学 技术 奖励 工作 办 公 室 


图 12-4 国家 科技 成 果 网 高 级 检索 界面 
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单位 都 要 按照 规定 程序 上 报 、 登 记 ,1971 年 起 统一 定名 为 《科学 技术 研究 成 果 报 告 》。 

检索 我 国 科 技 成 果 报 告 可 通过 万 方 数据 资源 系统 中 的 《中 文科 技 报 告 数 据 库 》。 该 库 
始 建 于 1986 年 ,收录 了 自 1966 年 至 今 的 历年 各 省 ,市 部 委 鉴 定 后 上 报国 家 科技 部 的 科技 
成 果 报 告 , 共 40 万 余 条 科技 成 果 。 可 供 公 共 查 询 的 是 经 过 中 华人 民 共 和 国 科学 技术 部 审 
批 并 已 公开 的 中 文科 技 报告 20 000 余 份 ,专业 涉及 化 工 、 和 生物、 医药 、 机 械 、 电 子 、 农 林 、 能 
源 、 轻 纺 、 建 筑 . 交 通 、 矿 治 等 诸多 领域 。 这 些 领 域 分 成 八大 部 分 : 国家 重大 科技 专项 、 国 
家 重点 基础 研究 发 展 计划 、 国 家 高 技术 研究 发 展 计 划 、 国 家 科技 支撑 计划 、 国 家 国际 科技 
合作 专项 、 国 家 重大 科学 仪器 设备 开发 专项 、 国 家 科学 技术 奖励 项 目 、 国 家 重大 科学 研究 
计划 。 

作为 各 个 高 校 数字 化 校园 的 服务 资源 之 一 ,一 般 都 购买 了 万 方 数据 资源 系统 ,大 学 生 
通过 本 学 校 的 局 域 网 可 以 免费 检索 ;如 果 所 在 学 校 没 有 购买 ,用 户 需 要 通过 互联 网 检索 并 
预先 付费 ,获得 用 户 名 和 密码 后 才 可 进行 检索 ,检索 网 址 为 : http://c. wanfangdata. com. 
cn/NSTR. aspx, 其 检索 分 类 目录 如 图 12-5 所 示 。 


中 文科 技 报告 人民 24 和 国字 本 不 各 三 作 开 的 + 侈 时 掖 入 和 20000 信 份 数据 寻 芝 并 IE 


地 球 探 到 (器 
分 析 仪器 
图 国家 高 法 不 研究 发 展 计划 
高 SK 强 
的 园 国税 技 支 壕 H 刘 
2 
es 园 BA 技 A 作 项 
特 mt 到 仪器 
箱 理 性 多 到 二 仪器 是 
医学 科研 仪器 
3 园 BSA 


图 鱼池 Wstit 划 


12-5 万 方 中 文科 技 报 告 分 类 检索 目录 


检索 项 包括 成 果 名 称 、 成 果 题名 作者、 关键 词 和 成 果 完 成 的 起 止 时 间 。 例 如 ,通过 分 
类 一 级 目录 “国家 科技 重大 专项 ”选择 其 中 的 二 级 目录 “新 一 代 宽 带 无 线 移动 通信 ”获得 相 
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关 科 技 报告 163 条 ,实例 如 图 12-6 所 示 。 
田 到 要 玉 知识 服务 平台 ee 


科技 报告 ”三 计划 和 名称" 国家 科技 重大 专项 "技术 领域 "新 一 代 宽带 无 线 黎 动 通信 " DBID:CHI 
4 


共 检索 到 163 条 记录 是 名 作者 关键 词 起 妨 年 。。 结 柬 年 
1 
国家 科技 重大 专项 时 技 报告 ] 周 华 春 等 北京 交通 大 学 2011 


关键 词 : 移动 互联 同 ， 分 高 机 制 ， 移 动 性 管理 ， 支 全 协议 ， 流 重 监控 ， 内 容 监 管 
》 新 一代 开 沁 无线 移动 ~… 


图 12-6 万 方 中 文科 技 报 告 数据 库 检索 实例 


3. 国务 院 发 展 研究 中 心 报 告 ( 国 研 报告 ) 

国务 院 发 展 研究 中 心 是 直属 国务 院 的 政策 研究 和 咨询 机 构 , 是 国内 国际 知名 的 政策 
研究 咨询 机 构 ,在 宏观 经 济 政策 发 展 战 略 和 区 域 经 济 政策 .产业 经 济 和 产业 政策 .金融 以 
及 国际 经 济 等 领域 拥有 许多 国内 外 著名 的 经 济 学 家 以 及 高 素质 的 专家 和 研究 人 员 。 国 务 
院 发 展 研究 中 心 信息 网 (简称 * 国 研 网 ”) 由 国务 院 发 展 研究 中 心 主管 .北京 国 研 网 信息 有 
限 公司 承 办 ,创建 于 1998 年 3 月 ,是 中 国 著名 的 专业 性 经 济 信息 服务 平台 。 

进入 国 研 网 主页 ,在 检索 输入 框 中 输入 关键 词 ,如 果 有 多 个 关键 词 ,关键 词 间 可 以 使 
用 偿 辑 算 符 连接 。 在 该 检索 系统 中 ,表示 “* 且 ”的 关系 ,使 用 空格 “十 ”或 “中 ”; 表 示 “ 非 ”的 
关系 ,使 用 字符 “一 ;表示 “或 ”的 关系 ,使 用 字符 “|”; 如 果 表 达 式 是 一 个 整体 单元 ,使 用 字 
符 "()”。 单 击 “ 检 索 ” 按 钮 ,系统 显示 题名 与 摘要 。 选 择 需要 查看 全 文 的 报告 , 单 击 “ 标 题 
名 称 ” 就 可 以 看 到 报告 的 全 文 。 一 般 文科 或 综合 性 高 校 都 购买 了 国 研 报告 数据 库 , 检 索 和 
阅读 全 文 是 免费 的 。 如 果 某 些 类 型 的 高 校 ( 例 如 工科 类 高 校 ) 没 有 购买 , 则 用 户 需 要 网 络 
注册 后 使 用 。 国 研 报 告 的 分 类 检索 目录 见 图 12-7。 

国 研 报告 的 分 类 检索 目录 依据 经 济 产业 的 行业 进行 分 类 ,便于 分 类 查询 。 检 索 方 
式 有 关键 词 . 标 题 , 作 者 与 全 文 。 假 设 依据 其 “月 报 ” 为 例 ,获得 的 检索 结果 如 图 12-8 
所 示 。 

4. 中 国 商业 报告 数据 库 

(1) 普通 检索 。 中 国 商 业 报 告 数据 库 (http://www. chinainfobank. cn) 是 中 国资 讯 
行 的 子 库 之 一 ,收录 经 济 专家 及 学 者 关于 中 国 宏观 经 济 、 金 融 市 场 ,行业 等 的 分 析 研 究 文 
献 及 政府 部 门 颁布 的 各 项 年 度 报告 全 文 , 主 要 为 用 户 的 商业 研究 提供 专家 意见 的 资讯 , 数 


408 /大 学 生 信息 检索 素养 教程 


“ 周 评 


年 报 


New! 


天 | 国 研 网 系列 研究 报告 


" 国内 金融 形势 与 货币 政策 周 评 银行 业 监管 与 市 场 动态 周 评 
“证 券 业 监管 与 动态 周 评 期 货 业 监管 与 动态 周 评 保险 业 监管 与 动态 周 评 国际 金融 形势 周 评 
“宏观 经 济 “房地产 业 “电力 行业 “钢铁 行业 “汽车 行业 
“金融 中 国 通信 行业 “港口 航运 “医药 行业 电子 商务 
“宏观 经 济 “房地产 业 “电力 行业 “石油 行业 “化 工行 业 
“金融 中 国 “交通 运输 “医药 行业 “生物 制药 “通信 设备 
“电子 商务 “水 泥 制造 

“房地产 业 “电力 行业 “钢铁 行业 汽车 行业 
“化 工行 业 “医药 制造 “食品 制造 “通信 行业 


最 新 文章 | 产品 名 录 


* 信托 业 监管 与 动态 周 评 


“石油 化 工 


“钢铁 行 : 


此 


“通信 行 


图 12-7 国 研 报告 的 分 类 检索 目录 


此 


“汽车 行业 
“食品 制造 


国 研 网 系列 研究 报告 您 当前 位 置 ; 首页 》 国 研 同系 列 研究 报 过 》 月 报 
宏观 经 济 一 -一 | 
DR 
© 去 观 经 济 。 [ 国 研 专 入 中 国 经 济 一 季度 企稳 ， 仍 应 继续 推进 结构 性 履 革 @ 
a 。 [ 国 研 专 入 出行 一 季度 货币 政策 报告 解决 
。 [ 国 研 专 入 PPP 模 式 的 国际 经 认 与 我 国 的 交 施 路 入- 现状 箱 (上 ) @ 
© 房地产 业 。 [ 国 研 寺 术 JFF? 模 式 的 加 和 经验 与 我 国 的 交 施 路径 -现状 逢 (下 》 @ 
a 金融 中 国 Ee 
。 [ 国 研 专 入 ] 2016 年 4 月 货 市 运行 分 析 @ 
0 。 [ 国 研 专 入 ] 2016 年 月 货 市 市 场 行 分 析 @ 
日 汽 车 行 业 。 [ 国 研 寺 术 ]2016 年 4 月 其 和 市 场 运行 分 析 @ 
。 [ 国 研 专 往 ]2016 年 4 月 外 汇市 场 运行 分 析 @ 
© 石油 t 工 ， [ 国 研 专 稿 ] 2015 年 4 月 份 期 谷 业 监管 与 市 场 动态 (下 ) @ 
of rt。 [CHARGEIESRRUEESEESEE 
虽说 吕 有 运 。 2o16 年 5 月 (上 半月 ) 房地产 行业 要 间 纺 述 @ 
党 2018 年 4 月 (下 半月 ) 房地产 行业 要 闻 综 述 @ 
。 [国志 术 ]2016 征 1- 月 房地产 市 场 运行 指标 分 析 a 


2016-05-16 


图 12-8 国 研 报 告 的 “月 报 ” 检 索 实 例 


据 库 每 日 更 新 。 首 先 用 户 进行 数据 库 选择 ,也 可 以 默认 搜索 全 部 数据 库 。 检 索 数 据 库 包 
括 中 国 经 济 新 闻 库 、. 中 国 商 业 报告 库 . 中 国法 律 法 规 库 等 14 个 检索 库 。 一 般 检索 界面 提 
供 的 检索 功能 有 以 下 几 项 : 
@ 库 选 择 , 对 14 种 数据 库 进 行 选择 。 
@ 时 间 选 择 与 过 滤 : 前 一 月 .前 二 月 .前 三 月 .前 一 年 或 全 部 时 间 范 围 五 种 。 
@ 检索 范围 限定 : 检索 词 的 标题 位 置 或 全 部 内 容 范 围 。 
@ 检索 词 逻辑 关系 : 全 部 字 词 出 现 , 任 意 字 词 出 现 或 全 部 字 词 不 出 现 。 


@ 检索 词 : 任意 字 词 ,任意 标题 词 . 关 键 词 或 主题 词 。 
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(2) 检索 结果 的 继续 过 滤 查 询 。 图 12-9 是 以 “大 学 生 就 业 ” 为 检索 词 在 中 国 商业 报告 
库 中 的 检索 结果 共 41 条 ,依据 时 间 倒 序 排列 的 示例 图 。 为 了 用 户 继续 评价 与 评定 检索 的 
返回 结果 ,数据 库 还 提供 了 “重新 检索 "“ 同 一 检索 命令 在 其 他 库 中 检索 ”、“ 在 前 次 结果 中 
检索 ( 即 二 次 检索 )” 等 功能 。 


INFOBANK. CH 


数据 库 查询 中 国 商 北 报告 库 

您 选 的 标题 是 大 学 生 就 业 

检索 结果 命中 所 篇 

加 重新 性 案 。 ”日 同 - 检 索 命令 在 其 他 库 中 检索 个 在 前 次 结果 中 检索 

库 选 择 [中 国 商业 报告 库 回 时 间 洁 择 [全 部 数据 巴 ] 检索 范围 [全 部 蔬 ] 加 关系 [全 部 字 词 出 现 
输入 字 词 大 学 和 就 上 A 任意 字 ， 

和 5 本 
回 4 20150818 互联 网 企业 正成 中 国 大 学 生 就 业 高 地 5187 字 ) J 


回 4 20150721 。 ”浙江 金华 市 县 联动 力促 大 学 生 就 北上 2213 字 ) 
回 39 20140514 。。 政策 密集 出 台 让 中 国 大 学 生 就 业 有 " 助 "6 上 有" 路" 2283 字 ) 
回 _38 20140415 兰 创新 "学 徒 制 "保障 大 学 (4321 字 ) 


图 12-9 中国 商业 报告 数据 库 一 般 检 索 实例 


(3) 专业 检索 。 中 国 商业 报告 数据 库 专 业 检索 内 容 包括 如 下 。 

@ 对 行业 分 类 的 限定 : 默认 为 全 部 行业 ,也 可 在 国防 、 人 口 ,测绘 .教育 等 各 行 各 业 中 
选择 其 一 。 

@ 地 区 分 类 : 相对 来 说 ,该 分 类 是 本 数据 库 最 详细 的 ,包括 我 国 省 市 、 经 济 区 域 和 世 
界 各 个 国家 。 

@ 报告 的 文献 出 处 : 这 部 分 的 信息 过 滤 主 要 是 过 滤 报 告 的 信息 来 源 , 包 括 很 多 研究 
所 (例如 国家 经 贸 委 经 济 研究 中 心 报告 ) 和 丰富 的 经 济 类 学 术 刊 物 (例如 财经 研究 .东方 经 
济 等 数 十 种 刊物 ) 。 

@ 逻辑 关系 : 全 部 字 词 出 现 、 任 意 字 词 出 现 或 全 部 字 词 不 出 现 。 

@ 检索 范围 : 标题 副标题、 正文 或 全 部 。 

@@ 返回 记录 数 : 20、50 和 100。 

中 国 商业 报告 数据 库 专 业 检 索 界 面 见 图 12-10。 


12.1.4 国外 科技 报告 资源 检索 

世界 上 许多 国家 都 有 科技 报告 的 生产 和 收藏 。 比 较 重要 的 有 美国 四 大 科技 报告 ; 英 
国 原 子 能 管理 局 的 UKAEA 报告 .科学 与 工业 研究 部 的 DSTR 报告 .航空 研究 委员 会 的 
BARC 报告 ;日 本 东京 大 学 原子 核 研究 所 报告 ,三 菱 技术 通报 、 科 学 技术 厅 航 空 宇宙 技 术 
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infobank > 


INFOBANK CH 


专业 检索 - 在 线 帮 助 - 返回 主页 ~ 


专业 检索 : 中 国 商 业 报告 库 


地 区 分 类 [全 部 
文献 出 处 [全 部 如 部 关 系 [全 部 字 疝 命中 区 
检索 范围 [全部 ” 区 ] 返 ie 录 [5 条 加 
输入 字 词 
起 始 日 期 20150523 截至 日 期 20160522 


回回 区 


本 数据 库 说 明 : 
中 国 商 业 报 告 库 


本 教 据 库 收录 了 经 济 专家 及 学 者 关于 中 国志 观 经 济 、 全 融 、 市场、 行业 等 的 分 析 研 究 文献 及 政府 部 门 侨 布 
的 各 项 年 度 报告 全 文 ， 主 要 为 用 户 的 商业 研究 提供 专家 意见 的 资讯 * 


图 12-10 ”中国 商业 报告 数据 库 专业 检索 界面 


研究 所 的 NAL-TM 报告 ;法 国 原子 能 委员 会 的 CEA 报告 ;加 拿 大 原子 能 有 限 公 司 的 
AECL 报告 ;德国 航空 研究 所 的 DVR 报告 以 及 苏联 的 科学 技术 总 结 等 。 

在 世界 各 国 数量 庞大 的 各 类 科技 报告 中 ,美国 拥有 的 比重 约 占 世 界 上 出 版 的 所 有 科 
技 报告 的 50% 以 上 ,而 且 比 较 系统 化 。 其 中 ,历史 悠久 、 报 告 量 多 、 参 考 和 利用 价值 大 的 
主要 有 PB、AD、NASA 和 DE 报告 。 美 国 四 大 报告 的 累积 量 达 100 万 篇 以 上 ,其 中 我 国 
万 方 (http://c. wanfangdata. com. cn/NSTR. aspx) 知 识 服务 平台 收录 并 提供 网 络 服 务 的 
美国 四 大 报告 达 110 多 万 篇 (1958 年 至 今 ) 。 见 图 12-11。 


外 文科 技 报告 4 美国 政府 四 大 科技 报 各 AD、DE、NASA、PB , 共计 1100000 余 份 ， 数 据 将 陆续 增加 - 


DE 


美国 能 源 部 DE 报 告 


图 12-11 我 国 万 方 数据 提供 的 美国 四 大 报告 检索 服务 实例 


1。PB 报告 
1945 年 6 月 ,美国 成 立 商 务 部 出 版 局 (U.S Department of Commerce Office of the 
Publication Board) ,负责 整理 并 公布 从 第 二 次 世界 大 战 战 败 国 获取 的 科技 资料 ,并 编号 出 
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版 ,号 码 前 统一 冠 以 PB 字样 。20 世纪 40 年 代 的 PB 报告 (10 万 号 以 前 ) 主要 为 战败 国 的 
科技 资料 ,50 年 代 起 主要 是 美国 政府 科研 机 构 及 其 有 关 合 同 机 构 的 科技 报告 。PB 报告 
的 内 容 绝 大 部 分 属 科 技 领 域 ,包括 基础 理论 .生产 技术 .工艺 .材料 等 。20 世纪 80 年 代 
后 ,PB 报告 统一 采用 “PB 十 年 代 十 顺序 号 ”的 形式 ,如 PB97 一 127864。 我 国 万 方 数据 提 
供 的 PB 报告 达 29 万 多 篇 ,其 检索 项 有 报告 提名 、 作 者 ,关键 词 和 起 止 时 间 共 四 项 ,实例 如 
图 12-12 所 示 。 


识 服 务 平 台 
次 
田 成 矶 王猛 知识 日 检索 资源 
科技 报告 ”三 “报告 类 型 PB DBID-ENG 
4 
共 检索 到 292,237 条 记录 是 名 FE 者 关键 启 起 妨 征 素 征 
ET 1. New Cost Estimates for Carbon Sequestration Through Afforestation in the United States 
和 292237 份 内 技 报告] 2014 
2. Community Energy Management in Sitka, Alaska What Strategles Can Help Increase Energy 
Independence? 
朵 技 报 吉 ) 2014 


图 12-12 万 方 PB 检索 实例 


2. AD 报告 

1951 年 5 月 ,美国 成 立 武装 部 队 技 术 情 报 局 (Armed Service Technical Information 
Agency, ASTIA), 负 责 收集 、 整 理 , 编 辑 、 出 版 国防 部 所 属 海陆 空 三 军 军事 系统 科研 机 构 
及 其 与 国防 部 订 有 合同 的 工业 企业、 高 等 院 校 提出 的 军事 科研 报告 。AD 报告 即 是 该 情 
报 局 出 版 的 文献 。ASTIA 几经 改组 易 名 ,但 报告 仍 沿用 AD 名 称 。 万 方 数据 提供 的 AD 
报告 达 42 万 多 篇 ,其 检索 项 有 报告 提名 、 作 者 .关键 词 和 起 止 时 间 共 四 项 ,实例 如 
图 12-13 所 示 。 

AD 报告 有 密级 ,并 用 不 同 的 字母 表示 。 自 1975 年 起 它 的 主要 形式 如 下 : AD 一 
A000001~,A 表示 公开 报告 , 占 45% ;AD 一 B000001 一 ,B 表示 非 密 限制 报告 , 占 39% : 
AD 一 D000001 一 ,D 表示 美国 专利 文献 ;另外 还 有 AD 一 E 是 临时 使 用 的 试验 号 ;AD 一 P 
是 丛书 或 会 议论 文集 的 单行 本 : AD 一 R 是 国防 部 和 能 源 部 能 源 学 科 的 保密 文献 。 

3. NASA 报告 

NASA 报告 是 美国 国家 航空 与 航天 局 (National Aeronautics and Space 
Administration,NASA) 拥 有 的 研究 机 构 产 生 的 技术 报告 。 该 局 成 立 于 1958 年 ,其 前 身 
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”| 人 
万 万 数 据 知识 服务 平 
田 WANFANG DATA La 口 检索 资源 
科技 报告 ”三 “报告 类 型 AD DBID'ENG 
A 
共 检索 到 420,374 条 记录 ES 作者 天谴 辣 起 由 年 关 素 年 
,Proanthocyanidin-based Endotoxin Removal. 
外 文科 技 报告 1. Pi lin-bat End Ri 中 
>AD 420374 份 本 技 报告 ]B Lin B J White G_P. Anderson 上 B Delehanty 2014 
关键 词 : Bacterial diseases， Beads， Capture， Catechin, Endotoxin resin, Escherichia coli, Lipids, Lipopolysaccharide, 
Lipopolysaccharides, Polymers, Proanthocyanidin, Proteins, Purification, Removal, Tea 


图 12-13 万 方 AD 检索 实例 


是 美国 国家 航空 咨询 委员 会 (National Advisory Committee {or Aeronautics NACA) 。 
NACA 报告 创刊 于 1915 年 ,主要 内 容 为 空气 动力 学 发 动机 及 飞行 器 结构 、 试 验 设 备 、 飞 
行 器 的 制导 及 测量 仪器 等 。 我 国 万 方 数据 提供 的 NASA 报告 达 11 万 多 篇 ,其 检索 项 有 
报告 提名 、 作 者 .关键 词 和 起 止 时 间 共 四 项 ,实例 如 图 12-14 所 示 。 


田 下 可 最 知识 服务 平台 检索 。。 资源 
科技 报告 ”三 。 报告 类 型 .NASA DBID:ENG 
4 


共 检索 到 117,089 条 记录 全 名 者 关键 词 起 的 年 于 年 


| sx | 1. Numerical Uncertainty Analysis for Computational Fluid Dynamics using Student TDistribution -- 


117089 APPlication of CFD Uncertainty Analysis Compared to Exact Analytical Solution, 


昱 技 报告 ] Groves. C. Ellie, M._Shalihom, P.A 2014 


关键 词 : Computational fluid dynamics，Numerical analysis，Laminar flow, Oscillations, Uncertain systems, Prediction analysis 


techniques, Error analysis 


图 12-14 万 方 NASA 检索 实例 


NASA 报告 是 一 种 综合 性 科技 报告 , 除 航 空 航天 技术 外 ,还 涉及 电子 、 机 械 、 化 工 、 治 
金 .天 体 物理 等 相关 学 科 。NASA 报告 中 还 包括 专利 文献 .学 位 论文 和 专著 及 一 些 外 国文 
献 .译文 等 。NASA 报告 号 采用 “NASA 十 出 版 类 型 十 顺序 号 ”的 形式 ,如 NASA 一 TP 一 
107279。 报 告 类 型 主要 有 NASA 一 TR 一 R 一 (技术 报告 )、NASA 一 TN 一 D 一 (技术 机 
记 )、NASA 一 TT 一 F 一 (技术 译文 )、 NASA 一 SP 一 (特种 出 版 物 ) 等 十 余 种 类 型 。 在 
NASA 数据 库 中 ,NASA 文献 一 律 冠 以 字母 N, 其 编号 形式 为 :“N 十 年 代号 十 顺序 号 ”。 
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4. DE 报告 

1946 年 美国 建立 原子 能 委员 会 (Atomic Energy Commission,AEC),AEC 报告 即 为 
该 委员 会 所 属 单位 及 其 合同 户 编写 的 报告 。1975 年 ,该 委员 会 更 名 为 能 源 研究 与 发 展 署 
(Energy Research and Department Administration, ERDA), AEC 报告 相应 改称 为 
ERDA 报告 。1977 年 ,该 署 又 扩大 为 美国 能 源 部 (US Department of Energy, DE)， 
1978 年 7 月 起 逐渐 冠 以 DE 报告, 内容 仍 以 原子 能 和 其 他 能 源 为 重点 ,其 文献 主要 来 自 能 
源 部 所 属 的 技术 中 心 、 实 验 室 、 信 息 中心 和 一 些 国 外 研究 机 构 。 我 国 万 方 数据 提供 的 DE 
报告 达 31. 9 万 多 篇 ,其 检索 项 有 报告 提名 、 作 者 ,关键 词 和 起 止 时 间 共 四 项 ,实例 如 图 12-15 
所 示 。 


田 5 数据 知识 服务 平 合 检索 资源 


科技 报告 ”三 报告 类 型 -DE DBID:ENG 
4 


共 检 索 到 319,103 条 记录 是 各 作者 天 键 语 起 始 年 


这 
外 文科 技 报告 1. Superconductivity, Glue, and the Pseudogap. 


> DE 319103 份 昱 技 报告 A Migliori 2014 


关键 词 : Electrons，Fermions，Glue，Metals，Phase transltlons，Pseudogap，Quantum theory，Spin，SuperconductWty 


图 12-15 万 方 DE 检索 实例 


12.2 会 议 文献 资源 检索 


12.2.1 会 议 文献 资源 的 概念 

1. 专业 会 议 类 型 

随 着 科学 技术 的 发 展 ,世界 各 国 的 学 会 、 协 会 .研究 机 构 及 国际 性 学 术 组 织 举办 的 各 
种 学 术 会 议 日 益 增多 。 

(1) 按 组 织 形式 和 内 容 , 会 议 分 为 九 类 : Congress (专业 会 议 ),Convention( 代 表 大 
会 ), Conference (大 会 ), General Assembly (全 体会 议 ), Seminar (学 术 讨 论 会 )， 
Colloquium、Symposium (座谈 会 或 学 术 报 告 会 ), Workshop (业务 讨论 会 ), Working 
Group、Discussion Group or Expert Group Meeting (工作 小 组 .讨论 小 组 或 专家 小 组 会 
议 ),Committee( 委 员 会 )。 
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(2) 按 级 别 和 范围 把 会 议 分 为 四 类 : 国际 性 会 议 (包括 世界 各 大 洲 都 有 代表 参加 的 
“世界 会 议 ? 即 World Conference 和 某 个 国际 性 组 织 或 两 个 以 上 国家 联合 召开 的 “国际 会 
议 ” 即 International Conference) .全 国会 议 `. 地 区 会 议 (一 个 国家 的 地 区 性 学 术 机 构 单 独 
或 联合 召开 的 ) 和 基层 会 议 等 。 

2. 会 议 文献 的 概念 

会 议 文献 (conference literature) 就 是 指 在 学 术 会 议 上 宣读 和 交流 的 论文 .报告 及 其 
他 有 关 资 料 , 并 且 多 数 以 会 议 录 (proceeding) 的 形式 出 现 。 世 界 上 每 年 产生 的 会 议论 文 约 
10 万 篇 ,每 年 出 现 的 各 种 会 议 录 就 达 3000 余 种 。 


12.2.2 会 议 文献 的 特点 与 类 型 
会 议 文献 的 类 型 

会 议 文献 种 类 繁多 ,出 版 形式 多 样 ,通常 按时 间 把 会 议 文献 分 为 以 下 三 类 : 

(1) 会 前 文献 (pre-conference literature) : 指 在 会 议 之 前 预先 印发 或 出 版 的 会 议 资 
料 。 包 括 会 议 预 告 (forthcoming conference) 征文 启事 和 会 议 通 知 书 , 会 议 日 程 表 
(program) ,会 前 论文 摘要 (advanced abstracts) 和 预 印 本 (preprints) 等 。 其 中 预 印 本 是 在 
会 前 5~7 周 内 发 给 与 会 者 或 公开 出 售 的 会 议 资料 , 比 会 后 正式 出 版 的 会 0 
1 一 2 年 ,但 内 容 的 完备 性 和 准确 性 不 及 会 议 录 。 据 UNESCO 报道 , 约 有 50% 的 会 议 只 有 
会 前 文献 ,而 不 出 版 会 议 录 , 因 此 预 印 本 显得 更 加 重要 。 

(2) 会 中 文献 : 包括 开幕 词 .讲话 或 报告 (reports) ,讨论 记录 ,会 议决 议和 闭幕 词 等 。 
许多 内 容 价值 并 不 大 。 

(3) 会 后 文献 (post-conference literature) : 是 指 会 议 结束 后 ,经 会 议 主办 单位 等 机 构 
正式 出 版 的 会 议论 文集 。 包 括 会 议 录 (proceedings)、 论 文 汇 编 (transactions)、 会 议 摘要 
(digest) ,会 议 出 版 物 (publications) 等 。 其 中 ,会 议 录 是 会 后 将 论文 .报告 及 讨论 记录 整 
理 汇编 而 公开 出 版 或 发 表 的 系统 化 文献 ,价值 较 大 。 

2. 会 议 文献 的 特点 

(1) 内 容 新 颖 ,传递 及 时 。 大 多 数 研究 先 在 会 议 上 首次 公布 ,经 过 一 段 时 间 才 陆续 在 
期 刊 或 其 他 文献 上 发 表 , 有 的 则 根本 不 发 表 。 因 此 ,会 议 文献 传递 的 是 新 颖 的 但 尚未 成 熟 
的 科研 中 的 信息 , 远 比 科技 期 刊 迅速 和 直接 。 

(2) 专业 性 和 针对 性 强 。 科 技 会 议 都 有 一 定 的 专业 性 ,讨论 的 主题 大 都 是 当前 人 们 
共同 关注 的 科学 热点 与 难点 问题 ,一 般 要 邀请 有 关 的 专家 学 者 参加 ,而且 会 议论 文 在 会 前 
要 经 过 专家 的 评审 。 因 此 会 议 文献 能 够 反映 某 一 学 科 或 专业 的 当前 水 平和 发 展 动向 ,是 
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一 种 重要 的 信息 源 。 

(3) 出 版 和 发 行 方式 灵活 多 样 。 通 常 , 以 期 刊 出 版 的 会 议 录 约 占 会 议 文献 的 2/5; 其 
他 的 会 议 文献 或 汇编 成 专题 论文 集 , 或 出 版 会 议 从 刊 .从 书 ,或 以 科技 报告 形式 出 版 。 有 
的 会 议 文献 还 以 录音 、 录 像 带 或 网 络 数据 库 形式 提供 服务 。 


12.2.3 国外 会 议 文献 的 检索 

1.《 世 界 会 议 》 

《世界 会 议 》(World Meetings, WM) 由 美国 世界 会 议 信 息 中 心 (World Meetings 
Information Center Inc. ) 编 辑 , Macmilan Publishing Company 出 版 。WM 是 专门 预报 未 
来 两 年 内 将 要 召开 的 世界 各 国学 术 会 议 信息 的 工具 ,包括 国际 会 议 、 全 国 性 会 议和 地 区 性 
会 议 , 收 录 世 界 上 100 多 个 国家 和 地 区 的 2000 多 个 科技 方面 的 专业 会 议 情 况 , 查 询 网 址 : 
http://www. wmforum. org。 报 道 范围 包括 自然 科学 工程 技术 、 社 会 科学 和 医学 等 学 科 
领域 ,由 以 下 四 个 分 册 构 成 : 

(1) World Meetings: United States&.Canada: 1963 年 创刊 ,预报 美 .加 两 国 近 两 年 
内 将 要 召开 的 各 种 学 术 会 议 。 

(2) World Meetings: Outside United States&.Canada: 1968 年 创刊 ,专门 预报 美加 
两 国 以 外 当年 和 次 年 将 要 召开 的 各 种 学 术 会 议 。 

(3) World Meetings: Medicine: 1978 年 创刊 ,报道 全 球 两 年 内 将 要 召开 的 医学 方面 
的 学 术 会 议 。 

(4) World Meetings: Social&Behavioral Science,Education& Management: 1971 年 
创刊 ,报道 全 球 两 年 内 将 要 召开 的 社会 学 .行为 科学 .教育 学 及 管理 学 等 方面 的 学 术 

WHM 的 四 个 分 册 都 是 季刊 ,而且 编排 方法 和 著录 格式 基本 相同 ,都 由 正文 和 索引 两 部 
分 组 成 。WM 的 正文 部 分 , 即 主要 款 目 (main entry section) 较 详细 地 著录 了 即将 召开 的 
各 种 会 议 消息 ,包括 会 议 名 称 、 内 容 、 召 开 日 期 和 地 点 、 主 办 机 构 及 提交 论文 期 限 等 。 各 种 
会 议 消息 都 会 在 正文 部 分 连续 报道 三 次 ,报道 内 容 每 年 完全 翻新 一 次 ,每 期 删除 内 容重 复 
三 次 的 会 议 , 并 补充 最 新 的 会 议 消息 ,从 而 动态 地 构成 其 报道 内 容 的 主体 。 

WM 的 索引 主要 有 六 个 , 即 关 键 词 索引 (keyword index)、 会 议 日 期 索引 (data 
index) 、 会 议 截稿 日 期 索引 (deadline index) 、 会 议 地 点 索引 (location index) .出 版 物 索 引 
(publication index) 、 主 办 单位 指南 与 索引 (sponsor directory and index) 。 
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2. 《会 议论 文 索引 》 

《会 议论 文 索引 》(CConference Papers Index,CPI) 由 英国 剑桥 科学 文摘 社 (Cambridge 
Scientific Abstracts Co. ) 编 辑 出 版 ,月 刊 。 它 主要 报道 世界 上 已 经 召开 或 即将 召开 的 各 
种 学 术 会 议 上 宣读 或 递交 的 学 术 论 文 ,报道 范围 涉及 自然 科学 、 工 程 技 术 和 医学 等 领域 ， 
年 报道 量 约 10 万 篇 。CPI 作为 一 种 题 录 式 报道 工具 , 既 有 印刷 版 ,也 有 机 读数 据 库 和 网 
络 数据 库 , 通 过 DIALOG、BRS 或 ESA/IRS 系统 以 及 CPI 的 机 构 网 址 http://www. 
proquest. com 都 可 以 进行 检索 。CPI 检索 主 界面 实例 见 图 12-16 。 


ProQuest 到 


For Ubraries ForResearchers ”produds&services ForCustomers Events About Blogs 


Discovery sevices 
ProQuest > Products & Services > Conference Papers Index i 


Conference Papers Index 


Fast Facts spapers Started 
Chtationsto conference papers 5 
pro Dissertations CONTACTUS 


Scence & engineering content iis 


WE Search Al Products 


图 12-16 ”CPI 检索 主 界面 实例 


CPI 由 正文 和 索引 两 部 分 组 成 。 正 文部 分 是 会 议 消息 和 会 议论 文 的 标题 , 按 17 个 学 
科 专 业 分 类 排列 ,每 一 类 目下 列 出 该 类 的 各 种 会 议 的 名 称 、 召 开 日 期 及 地 点 、 订 购 消息 等 
项 。 紧 接着 会 议 消息 之 后 著录 了 会 议 上 即将 宣读 或 已 经 宣读 的 多 篇 论文 .著者 及 其 单位 
等 。 例 如 ,要 检索 计算 机 结构 和 操作 系统 方面 的 论文 ,可 以 通过 “数学 和 计算 机 科学 ” 
(Mathematical and Computer Science) 类 目 及 其 相应 的 著录 款 目 ,得 到 由 ACM 和 IEEE 
主办 的 一 次 会 议 及 其 论文 集中 所 有 的 文章 信息 。 下 面 举 一 个 款 目 例子 进行 说 明 。 

892 02919 : 3rd International Conference on Architectural Suppod for Programming 
Languages and Operating Systems(ASPLOS 贡 )2 3 一 6 Spr 19898 Boston, MA(USA)® 
Association {or Computing Machinery (ACM); IEEE Computer Society® 90—007804® 
Architecture and compiler tradeoffs for a long instruction word microprocessor®? R. 
Cohn, T. Gross, M. Lam, P. S. Tseng (Dep. Comput. Sci., Canegie 一 Mellon Univ. ， 
Pittsburgh, PA). ®no. 1,pp. 387 一 3979 

说 明 : @ 为 会 议 登 记号 ; @ 为 会 议 名 称 ; @ 为 会 议 日 期 ; @ 为 会 议 地 点 ; @@ 为 主办 单 
位 ; @ 为 论文 顺序 号 ; @ 为 论文 名 称 ; @ 为 著者 名 称 及 单位 ; @ 加 为 其 他 补充 信息 ,如 论文 
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页 数 或 参考 文献 数 等 。 

CPI 的 索引 体系 分 期 索引 和 年 度 累积 索引 两 种 。 主 要 包括 主题 索引 (subject index)、 
著者 索引 (author index) 、 会 议 日 期 索引 (index by date of conference) 会议 地 点 索引 
(index by conference location) 和 会 议 议 题 分 类 索引 (index by topic of conference) 等 。 

3.《 科 技 会 议 录 索引 》 

《科技 会 议 录 索引 》(Index to Scientific& Technical Proceedings,ISTP) 是 一 种 综合 性 
的 科技 会 议 文献 检索 刊物 ,1978 年 创刊 ,月 刊 。ISTP 覆盖 的 学 科 范 围 广 ,收录 会 议 文献 
齐全 ,出 版 速度 快 , 其 声誉 已 超过 其 他 同类 刊物 而 成 为 检索 正式 出 版 的 会 议 文献 的 权威 性 
工具 。 就 学 科 范 围 而 言 ,ISTP 收录 的 会 议 录 涵盖 了 农业 、 环 境 . 生 物化 学 .生物 技术 、 医 
学 .工程 .计算 机 、 物 理 等 学 科 ; 就 会 议 类 型 而 言 ,ISTP 涉及 一 般 性 会 议 、 座 谈 会 .研究 会 、 
讨论 会 .发 表 会 等 ;就 出 版 速度 而 言 ,ISTP 出 版 比较 及 时 ,时 差 仅 为 6 一 10 周 。1998 年 ， 
ISI 进一步 推出 基于 Web of Knowledge 平台 的 ISTP 的 Web 版 , 极 大 地 提升 了 ISTP 的 
更 新 速度 和 服务 水 平 。 通 过 ISTP 不 仅 可 以 快速 有 效 地 查找 某 个 会 议 的 主要 议题 和 内 
容 , 而 且 还 能 够 根据 它 所 提供 的 会 议论 文 作者 的 详细 地 址 ,直接 写 信 向 作者 索取 文献 资 
料 。ISTP 有 月 刊 和 年 度 累积 本 两 种 形式 ,全 部 内 容 由 七 个 部 分 组 成 ,其 小 类 目 索 引 是 正 
文 的 编排 根据 ,会 议 录 目录 是 正文 ,其 他 则 是 各 种 索引 。 交 叉 学 科 的 会 议 录 在 相关 的 学 科 
主题 下 相互 参见 。 

《科技 会 议 录 索引 》 即 ISTP 有 四 个 重要 作用 : 取得 确切 的 目录 ; @ 提 供 最 新 的 知 
识 ; @ 进 行 回 溯 检 索 ; 由 取得 已 出 版 的 会 议 录 。 每 月 一 期 的 ISTP 都 能 够 提供 有 关 最 近 
出 版 的 会 议 录 的 信息 。 通 过 查阅 每 月 的 ISTP。 用 户 就 能 及 时 了 解 到 与 他 的 专业 有 关 的 
会 议 文献 ,从 而 避免 了 不 必要 的 重复 ;ISTP 是 一 种 很 容易 使 用 的 查找 最 新 知识 的 工具 。 
通过 浏览 其 中 每 个 会 议 录 和 每 篇 论文 ,可 在 很 短 时 间 里 发 现 与 自己 有 关 的 项 目 , 当 没有 时 
间 来 浏览 每 月 目次 表 时 , 则 可 使 用 ISTP 的 几 个 索引 ,准确 地 查 出 与 工作 者 有 关 的 那些 会 
议 录 和 论文 。 

科学 技术 会 议 录 索引 简称 ISTP, 又 称 为 CPCI, 被 列 和 人 “三 大 文献 索引 ”之 一 , 它 的 网 
络 版 就 是 Conference Proceedings Citation Index(CPCI) ,美国 科学 情报 研究 所 (ISTI) 基于 
Web of Science 的 检索 平台 ,将 ISTP( 科 学 技术 会 议 录 索引 ) 和 ISSHP( 社 会 科学 及 人 文 
科学 会 议 录 索 引 ) 两 大 会 议 录 索 引 集成 为 ISI Proceedings。 集 成 之 后 ISTP 分 为 文科 和 理 
科 两 种 检索 ,分 别 是 CPCI-SSH 和 CPCLS。 所 以 它们 还 统称 为 ISTP, 也 有 人 称 它们 为 
CPCI, 

系统 提供 Full Search 和 Easy Search 两 种 检索 界面 。Full Search: 提供 较 全 面 的 检 
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索 功 能 ,通过 主题 词 . 作 者 名 、 期 刊 名 、 会 议 或 作者 单位 等 途径 检索 ,可 限定 检索 结果 的 语 
种 .文献 类 型 .排序 方式 ,可 存储 /运行 检索 策略 。Easy Search: 检索 功能 相对 简单 ,可 以 
对 感 兴趣 的 特定 主题 人物 、 地 点 进行 检索 。 

1) 全 面 检索 

Full Search( 全 面 检索 ) 进 入 数据 库 后 , 单 击 Full Search 按钮 进入 Full Search 检索 界 
面 。 检 索 前 先进 行 选择 。 

(1) 选择 数据 库 。 科 学 技术 会 议 录 索引 (Science & Technology Proceedings) 或 社会 
科学 及 人 文科 学 会 议 录 索引 (Social Sciences & Humanities Proceedings) ,默认 为 两 库 
都 选 。 

(2) 选择 年 代 范 围 。 可 以 选择 某 年 或 最 近 几 周 上 载 的 数据 ,默认 为 All years。 

单 击 General Search 按钮 进入 检索 词 输入 界面 后 ,根据 需要 在 以 下 五 个 字段 中 输入 
检索 词 ,检索 词 间 可 用 逻辑 算 符 (AND.OR .NOT SAME) 连 接 。 

TOPIC: 主题 词 ,在 文献 篇 名 ,文摘 及 关键 词 字段 检索 ,也 可 选择 只 在 文献 篇 名 (title) 
中 检索 。 

AUTHOR : 作者 姓名 ,标准 写法 为 姓氏 全 拼 十 名 的 缩 拼 。 如 检索 张 小 东 就 输入 
zhang xd。 

SOURCE TITLE: 来 源 出 版 物 全 名 。 

CONFERENCE: 会 议 信息 ,例如 ,会 议 名 称 ` 地 点 .日 期 .主办 者 ,如 AMA and 
CHICAGO and 1994 。 

ADDRESS: 作者 单位 或 地 址 。 例 如 ,输入 IBM SAME NY 检索 作者 地 址 为 IBM7s 
New York facilities 的 会 议 文献 。 

(3) 检索 符 几 点 说 明 如 下 。 

Q@ 截 词 符 为 x ,例如 输入 automat x 可 以 检索 到 automation automatic 等 词 。 

@ 作者 单位 名 称 常常 用 缩写 ,例如 Univ Sci & Technol Beijing, 如 果 不 能 确定 缩写 
名 称 , 可 以 用 univx and Beijing and tech x 等 来 检索 。 

@ 逻辑 算 符 SAME 表示 检索 词 出 现在 一 句 话 中 。 

(4) 输入 检索 词 后 , 单 击 Search 按钮 检索 , 单 击 Clear 按钮 清除 输入 框 中 所 有 内 容 。 

(5) 检索 结果 限定 过 滤 。Full Search 方式 还 在 输入 框 下 方 提供 三 组 限定 选项 。 

文献 语种 选项 一 一 默认 为 所 有 语种 “All Languages”。 

文献 类 型 选项 一 一 默认 为 所 有 文献 类 型 *All document types”。 

命中 结果 排序 选项 一 一 可 以 根据 收录 日 期 .相关 性 、 第 一 作者 姓名 字 顺 来源 出 版 物 
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名 称 字 顺 会 议 名 称 字 顺 排序 。 默 认为 “Latest Date”, 即 根据 文献 的 收录 日 期 排序 。 

2) 简单 检索 

与 Full Search 类 似 ,首先 选择 数据 库 范围 ,然后 选择 需要 查找 的 信息 类 型 : 主题 
(topic)、 人 物 (person) 、 地 点 (place) ,分 别 进入 各 自 的 检索 界面 。 

(1) Topic Search( 主 题 检 索 ) : 在 篇 名 文摘 及 关键 词 字段 通过 主题 检索 文献 。 步 又 
如 下 。 

输入 描述 文献 主题 的 检索 词 ,用 逻辑 算 符 (AND.OR NOT) 连 接 。 

选择 结果 排序 方式 Relevance (相关 度 ) 或 Reverse chronological order (年 代 
倒序 ) 。 

(2) Person Search( 人 物 检 索 ) : 对 特定 人 物 进 行 检 索 。 步 骤 如 下 。 

@ 输入 要 检索 的 人 名 ,标准 写法 为 姓氏 全 拼 十 名 的 缩 拼 。 如 检索 张 小 东 就 输入 
zhang xd。 

@ 选择 是 检索 该 人 物 撰写 的 文献 还 是 有 关 该 人 物 的 文献 记录 。 

(3) Place Search( 地 址 检索 ): 从 著者 所 在 机 构 或 地 理 位 置 角度 进行 检索 。 步 又 是 直 
接 输 入 著者 所 在 机 构 ( 如 大 学 或 公司 名 称 中 的 关键 词 ) 或 地 理 位 置 ( 如 国 别 或 邮编 ), 单 击 
Search 按钮 开始 检索 。 


12.2.4 国内 会 议 文献 的 检索 

1. 中 国学 术 会 议 文献 数据 库 

中 国 科技 信息 研究 所 主办 ,1982 年 创刊 ,原名 《国内 学 术 会 议 文献 通报 》,1987 年 改 为 
现 名 ,月 刊 。《 中 国学 术 会 议 文献 通报 ?的 报道 范围 广泛 ,几乎 涵盖 了 自然 科学 .工程 技术 、 
社会 科学 ,管理 科学 .农业 科学 和 医学 等 所 有 学 科 , 是 目前 报道 在 我 国 召开 的 国际 性 和 全 
国 性 学 术 会 议 及 会 议 文献 的 最 具 权 威 性 的 检索 工具 。 年 报道 会 议 1000 个 左右 ,年 报道 量 
约 2 万 条 。 《中国 学术 会 议 文献 通报 ) 是 一 种 综合 性 的 检索 工具 ,由 “文献 通报 ”、“ 会 议 预 
报 ” 和 “会 议 动态 ”三 个 相互 独立 的 部 分 组 成 。 

“文献 通报 ”是 (中 国学 术 会 议 文献 通报 ) 的 主体 ,也 是 检索 会 议 文献 的 主要 工具 。 它 
分 类 进行 编排 ,大 类 下 列 出 包含 该 类 内 容 的 所 有 会 议 ; 会 议 下 面 再 列 出 在 该 会 议 上 交流 的 
所 有 论文 。 其 著录 内 容 包 括 会 议 名 称 、 会 议 时 间 、 地 点 ,会议 主办 单位 《中 图 法 ) 分 类 号 、 
会 议论 文 编号 .论文 篇 名 .论文 著者 及 所 在 单位 .论文 集 名 称 、 编 者 .出 版 年 月 .论文 在 论文 
集中 的 起 止 页 码 和 馆藏 索取 号 等 。 其 中 ,会 议论 文 编号 由 八 位 数字 组 成 ,前 两 位 代表 年 
代 , 后 六 位 是 本 年 度 的 流水 号 ,论文 篇 名 用 黑体 字 印 刷 。 


420 /大 学 生 信息 检索 素养 教程 


目前 中 国学 术 会 议 文献 通报 已 经 建成 中 国学 术 会 议 文献 数据 库 (China Conference 
Paper Database,CCPD) ,收录 始 于 1983 年 ,4000 个 重要 的 学 术 会 议 ,年 增 20 万 篇 全 文 ， 
每 月 更 新 ,国家 级 学 会 .协会 部委、 高 校 召开 的 全 国 性 学 术 会 议 为 主 ,国内 目前 收录 会 议 
数量 较 多 、 质 量 较 高 .学 科 履 盖 较 广 。 见 图 12-17。 我 国 万 方 会 议 文献 数据 库 总 量 达 
306 万 多 篇 。 会 议 文献 分 为 两 大 类 : 一 是 学 术 会 议 分 类 ,二 是 主办 单位 分 类 。 

(1) 资源 标 引 : 采用 受 控 语言 进行 主题 标 引 ,以 (汉语 主题 词 表 }》 为 叙 词 表 ,按照 (中 国 
图 书 资料 分 类 法 》 分 类 。 

(2) 特色 : 收录 会 议 级 别 高 ,全 国 重 点 会 议 ( 会 议 名 称 包 含 “ 国 际 ”"“ 中 国 >"“ 多 边 ”、 
“双边 ”“ 全 国 ? 等 ) 数 量 占 收 录 会 议 总 量 的 90% 以 上 ;是 国内 目前 收录 会 议 数量 较 多 .学 
科 覆 盖 较 广 的 数据 库 ;收集 年 代 久 远 , 有 些 机 构 、 专 业 的 会 议 已 形成 系列 ;同时 收录 中 文 
与 西 文 会 议 ,使 资源 更 加 丰富 、 完 整 。 提 供 的 会 议 文献 检索 方法 有 文献 题名 .关键 词 、 摘 
要 、 作 者 、 作 者 单位 .会 议 名称 及 其 主办 单位 。 


田 后生 要 所 知识 服务 平台 检索 资源 ms 人 @ 
会 议 。 三 在 3.061, 254 防 论文 中 检索 | 


中 国学 术 会 议 文献 时 据 库 《China Conference Paper Database，CCPD) ， 收 对 始 于 1983 年 ，4000 个 重要 的 学 术 会 议 , 年 增 20 万 入 全文 , 每 月 更 新 , 国家 织 学 会 ,人 协会、 部 委 ,高 校 召 开 的 全 | 


国 性 学 术 会 议 为 主 , 国内 目前 蛋 录 会 议 数 便 绞 多 、 上 量 较 高 、 学 科 甬 兽 较 广 。 


学 术 会 议 分 类 

哲学 、 宗 元 社会 科 子 乌 论 政治 、 法律 让 事 

经 济 文化 、 科 学、 教育 、 伟 育 交 学 

艺术 历史、 地理 自然 科学 乌 论 数理 科学 化 学 

天 文学 , 地 于 科学 和 主 物 H 子 5, 了 入 农业 科学 

工 站 质 术 交通 运输 航空 ,和 天 环境 科学、 安全 科学 


图 12-17 万 方 CCPD 会 议 文献 检索 与 资源 分 类 实例 


2. 中 国 重要 会 议论 文 全 文 数据 库 

(1) 概 述 。 中 国 重 要 会 议论 文 全 文 数据 库 是 CNKI 的 重要 服务 产品 之 一 ,该 数据 库 收 
录 我 国 2000 年 以 来 国家 二 级 以 上 学 会 .协会 .高 等 院 校 科 研 院 所 、 学 术 机 构 等 单位 的 会 
议论 文集 ,年 更 新 约 10 万 篇 论文 。 至 2016 年 5 月 ,累积 中 外 文 会 议论 文 全 文 文献 近 
210 万 篇 。 会 议 文献 来 源 包括 中 国 科 协 及 国家 二 级 以 上 学 会 .协会 .研究 会 .科研 院 所 、 政 
府 举办 的 重要 学 术 会 议 、 高 校 重要 学 术 会 议 、 在 国内 召开 的 国际 会 议 上 发 表 的 文献 。 
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数据 库 将 会 议 文献 产品 分 为 十 大 专辑 : 基础 科 


中 国 重要 会 议论 文 全 文 数据 库 
学 工程 科 技 [ 、 工 程 科 技 [、 农 业 科 技 、 医 药 卫 
生 科技 .哲学 与 人 文科 学 .社会 科学 工 . 社 会 科学 “| 上 全 天 目 孙 
I .信息 科技 .经 济 与 管理 科学 。 十 大 专辑 及 其 | 选 吕 学 科 令 二 ES 全 ET 
对 应 的 会 议 文献 总 量 如 图 12-18 所 示 。 回回 基础 科学 (190638 祝 ) 忆 
二 、 回 园 工程 科技 工 辑 (296341 篇 ) 己 

(2) 导航 检索 。 导 航 检索 主要 通过 四 级 导航 半生 天 而 认 
目录 来 实现 递 进 式 检 索 。 一 级 导航 有 会 议 导 航 、 | 器 右 农 二 科技 (122020 山 ) 避 
论文 集 导 航 和 主办 单位 导航 ;二 级 导航 是 在 一 级 | 回回 医药 卫生 科技 (502059 矢 ) 所 
导航 的 基础 上 划分 为 三 大 子 类 即 学 科 导航 、 行 业 | ecom 
导航 和 党 政 导航 ;三 级 导航 为 二 级 的 细 化 ,例如 i 
在 “会 议 导航 二 学 科 导 航 二 基础 科学 (1461)” 中 ， | 回回 信息 科技 (163053 入 所 
就 是 三 级 导航 的 “基础 科学 ”有 1461 个 会 议 , 实 | 四 回 经 济 与 管理 科学 (189194 秽 ) 


例如 图 12-19 所 示 。 图 12-18 ”中 国 重要 会 议论 文 全 文 数据 
(3) 检索 方式 丰富 。 主 要 有 快速 检索 、 标 准 检 库 产品 分 类 及 其 文献 总 量 

索 和 专业 检索 三 大 类 ,以 及 作者 检索 、 基 金 检 索 、 句 

子 检索 ,来源 会 议 检 索 等 辅助 检索 形式 。 见 图 12-20。 

中 国 重 要 会 议论 文 全 文 数据 库 | 文 南台 案 | 全会 广 须 论文 集 导 散 | | 主办 单位 导航 中 国 重要 会 议论 文 | 


| >H15 一 us 一 一 xsn 一 


只 会 议 导航 > 学 科 导 航 


会 议 时 间 : 人 不轨 。” 国 | 年 到 | 不 限 。 国 ] 年 检索 项 : 加] 袜 宁 词 : | | 图 总 未 | 


基础 科学 (1461) 
基础 科学 综合 (38) 自然 科学 理论 与 方法 (27) 教学 (60) 非 线性 科学 与 系统 科学 (32) 
力学 (107) 物理 学 (212) 生物 学 (373) 天 文学 (31) 
自然 地 埋 学 和 到 给 学 (98) 气象 学 (150) 海洋 学 (27) 地 质 学 (185) 
地 球 物理 学 (123) 资源 科学 (14) 


图 12-19 中 国 重 要 会 议论 文 全 文 数 据 库 的 导航 检索 实例 


@ 快速 检索 。 针 对 会 议 文献 数据 库 的 初级 用 户 或 较 陌 生 的 用 户 , 检 索 时 只 需要 用 户 
输入 简单 的 检索 项 即 可 ,不 需要 做 数据 库 选择 或 检索 词 的 逻辑 组 配 。 快 速 检索 的 检索 结 
果 准 确 性 较 低 。 

@ 标准 检索 。 针 对 数据 库 检索 应 用 比较 熟练 的 用 户 , 检 索 结 果 的 准确 性 较 高 。 需 要 
对 检索 会 议 文献 的 会 议 时 间 、 会 议 名 称 、 会 议 级 别 ( 国 际 性 、 全 国 性 、 地 区 性 等 ) 支持 基金 、 
论文 集 类 型 .语种 、 作 者、 作者 单位 等 进行 细 化 与 过 滤 。 
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快速 检索 标准 检索 专业 检索 。 。 作者 发 文 检索 。 科研 晨 全 检索 句子 检索 来 源 会 议 检索 


1. 答 入 检索 控制 条 件 : 要 


会 议 时 间 : 从 [ 单 击 稍 入 日 期 | 到 [ 音 击 输入 日 其 ] 更 新 时 间 : | 不 限 。 加 | 

会 议 名 称 ， [输入 会 议 名 称 | 坪 议 名 别 : [全 部 加 | 

支持 革 金 : | 输入 基 全 名 种 ， 全称、 简称 、 曾 用 名 均 可 四 

报告 级 别 ; | 全 部 国 论 文集 类 型 : | 不 限 。 。 国生 种 : | 不 限 国 | 

日 日 ”| 作者 ”[@|[ 输 入 作者 姓名 ”|| 精确 | 加 | 作者 单位 [入 入 作者 单位 ,全 种 、 简 种 、 曾 用 名 均 可 ] | 模 相 区 
2. 答 入 内 容 检索 条 件 : 

加 日 [让 国策 X 检 过 司 。” |] 因 轩 | 记 频 国 | 并 8 人 国 ][ 芍 入 检 过 司 | 因 轩 | 兽 须 国 | 本 确 国 | 


[ 戌 二 这 融 避 加 中 英文 扩展 检索 
图 12-20 中国 重要 会 议论 文 全 文 数据 库 的 丰富 检索 方式 


@ 专业 检索 。 专 业 检 索 针 对 数据 库 应 用 的 高 级 用 户 或 数据 库 检 索 服务 的 专业 人 员 ， 
需要 拟定 科学 合理 的 检索 表达 式 。 

可 检索 字段 : SU= 主 题 ,TI= 篇 名 ,KY= 关 键 词 ,AB= 摘 要 ,FT= 全 文 ,AU= 作 者 ， 
FI 二 第 一 作者 ,AF 二 作者 单位 ,CV== 会 议 名 称 ,CP 二 论文 集 名 称 , RF 二 参考 文献 ,CT= 
会 议 时 间 ,,RT= 更 新 日 期 ,FU== 基 金 ,CLC== 中 图 分 类 号 ,SN==ISSN,CN= 统 一 刊 号 ， 
IB=ISBN ,CF 王 被 引 频 次 。 现 在 举例 如 下 。 

例 一 ,TI= 王 生态 and KY 王 ' 生 态 文明 'and (AU % 陈 ' 征 王 ') 可 以 检索 到 篇 名 包括 “ 生 
态 ” 并 且 关 键 词 包括 "生态 文明 "并且 作者 为 “ 陈 ” 姓 和 * 王 ? 姓 的 所 有 文章 。 

例 二 ,SU 三 竺 林 '* 上 旅游 'and FT=' 环 境 保护 呵 以 检索 到 主题 包括 "桂林 ”及 "旅游 ?并 
且 全 文中 包括 “环境 保护 ”的 信息 。 

例 三 ,SU= (经 济 发 展 ' 十 可 持续 发 展 ) * 转变 一 泡沫 ' 可 检索 “经 济 发 展 " 或 “可 持续 
发 展 " 有 关 “ 转 变 ” 的 信息 ,并 且 可 以 去 除 与 泡沫 ”有 关 的 内 容 。 

3. 中 国学 术 会 议 在 线 

“中 国学 术 会 议 在线 ”(http://www. meeting. edu. cn) 是 经 教育 部 批准 ,由 教育 部 科 
技 发 展 中 心 主办 ,面向 广大 科技 人 员 的 科学 研究 与 学 术 交 流 信 息 服务 平台 。 见 图 12-21。 

“中 国学 术 会 议 在 线 ”" 本 着 优化 科研 创新 环境 、 优 化 创新 人 才 培 养 环境 的 宗旨 ,针对 当 
前 我 国学 术 会 议 资源 分 散 、 信 息 封 闭 、 交 流 面 窗 的 现状 ,通过 实现 学 术 会 议 资源 的 网 络 
共享 ,为 高 校 广大 师 生 创造 良好 的 学 术 交 流 环境 ,以 利于 开阔 视野 ,拓宽 学 术 交 流 渠 道 ， 
促进 跨 学 科 融 合 ,为 国家 培养 创新 型 .高 层次 专业 学 术 人 才 , 创 建 世界 一 流 大 学 做 出 积 
极 贡 献 。 
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网 Sicliein'cem eeltin gOnlir 
学 科 分 类 数学 力学 接 畦 文化 学 地 学 生物 科学 与 技术 农林 执 香 。 基 础 医学 临床 医学 中 开学 与 中 到 学 化工。 计 其 机 科学 与 村 术 电子 与 通信 “村 村 学 
自动 化 与 仪器 仪表 “机柜 | 电气 工程 ”能源 与 资源 工程 “土木, 水利 与 建议 环境 科学 与 工程 ”经济 与 管理 科学 ”人文 社 科 类 


图 12-21 中 国学 术 在 线 系统 Logo 与 主要 功能 模块 


“中 国学 术 会 议 在 线 ? 利 用 现代 信息 技术 手段 ,将 分 阶段 实施 学 术 会 议 网 上 预报 及 在 
线 服 务 、 学 术 会 议 交 互 式 直播 /多 路 广播 和 会 议 资料 点 播 三 大 功能 。 为 用 户 提 供 学 术 会 议 
信息 预报 ,会 议 分 类 搜索 、 会 议 在 线 报名 、 会 议论 文 征集 ,会 议 资料 发 布 . 会 议 视 频 点 播 、 会 
议 同步 直播 等 服务 。 

“中 国学 术 会 议 在 线 ” 还 将 组 织 高 校 定期 开办 “名 家 大 师 学 术 系 列 讲座 ”, 并 利用 网 络 
及 视频 等 条 件 组 织 高 校 师 生 与 知名 学 者 进行 在 线 交流 。 提 供 会 议 资源 的 模糊 检索 ,会 议 
检索 ,视频 检索 和 会 议论 文摘 要 检索 四 大 类 检索 ,实例 如 图 12-22 所 示 。 


站 内 资源 检索 。“ 梳 狂 检察 ”会 议 检索 。 视频 检索 。 会 议论 文摘 要 检索 


输入 关键 字 检 过 [检索 


图 12-22 中 国学 术 会 议 在 线 系统 检索 功能 


12.3 学 位 论文 检索 


12.3.1 学 位 论文 概述 

学 位 论文 是 高 等 院 校 和 科研 院 所 的 本 科 生 研究生 为 获得 学 位 资格 (博士 学 位 、 人 硕士 
学 位 和 学 士 学 位 ) 而 撰写 的 学 术 性 较 强 的 毕业 研究 论文 ,英国 称 为 "Thesis”, 美 国 称 为 
“Dissertation”。 学 位 论文 通常 都 是 经 过 悉心 指导 ,符合 授予 学 位 的 要 求 , 不 少 论文 选 题 
新 颖 ,论述 系统 ,见解 独到 ,具有 独创 性 ,特别 是 博士 学 位 论文 ,探讨 一 些 前 人 没有 论 及 过 
的 新 领域 ,并 且 提 出 具有 独特 、 创 新 的 见解 。 因 此 ,学 位 论文 是 学 者 、 专 家 及 博士 与 硕士 生 
智慧 的 结晶 ,是 了 解 国内 外 科技 研究 发 展 的 重要 的 信息 媒介 ,是 各 国 拥有 自主 知识 产权 的 
重要 信息 资源 和 知识 宝藏 ,具有 重大 的 开发 利用 价值 。 
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学 位 论文 除 在 学 位 授予 单位 被 收藏 外 ,一 般 还 在 国家 指定 单位 专门 进行 收藏 。 国 内 
收藏 硕士 .博士 学 位 论文 的 指定 单位 是 中 国 科学 院 技术 信息 研究 所 和 国家 图 书馆 。 另 外 ， 
设 有 硕士 和 博士 教学 点 的 大 学 或 研究 所 也 藏 有 本 校 ( 本 所 ) 攻 读 硕士 学 位 和 博士 学 位 的 学 
位 论文 。 按 照 中 国 高 等 教育 文献 保障 体系 (CALIS) 要 求 , 各 高 校 学 位 论文 要 数字 化 并 上 
网 ,这 为 学 位 论文 的 检索 带 来 了 极 大 方便 。 


12.3.2 国外 重要 学 位 论文 数据 库 检 索 

国外 博士 硕士 论文 数据 库 ProQuest Digital Disserationas (PQDD) 是 美国 UMI 公司 
PorQuest Direct (PQD) 系 统 的 博 硕 士 论 文 题 录 与 文摘 数据 库 , 是 DAO (Dissertation 
Abstracts Oddisc) 的 网 络 版 ,该 库 收录 了 欧美 2 000 余 所 大 学 的 200 多 万 篇 学 位 论文 ， 
ProQuest 公司 是 世界 上 最 早 及 最 大 的 博 硕 士 论 文 收藏 和 供应 商 , 该 公司 的 ProQuest 
Dissertations and Theses(PQDT) 数 据 库 收 录 有 了 欧美 2 000 余 所 大 学 的 200 多 万 篇 学 位 论 
文 。 国 内 若干 图 书馆 文献 收藏 单位 每 年 联合 购买 一 定数 量 的 ProQuest 学 位 论文 全 文 ， 
提供 网 络 共享 , 即 凡 参加 联合 订购 成 员 馆 均 可 共享 整个 集团 订购 的 全 部 学 位 论文 资源 ， 
PQDT 也 是 世界 上 最 大 和 最 广泛 使 用 的 学 位 论文 数据 库 , 内容 覆 盖 理 工 和 人 文 社 科 等 领 
域 。 PQDT 学 位 论文 检索 系统 主 界面 见 图 12-23。 


ProeQvest 学 位 论文 全 文 检索 平台 


| 二 TCD (Ergin 日 
CALIS 


LogIn 


Welcome to PQDT full-text 
PQDT is the only full-text database in China providing high quality dissertations 
User Name: theses, which mostly come from over 2000 American and European universities. The 


i covers extensive aspects.It is the vital source of information for nowaday 


[ogin | [registel 


Admmistrator Logn 


® Al © subscribed Full Text only 


Advanced Search Help 
Related Links ‘ Browse By Subject 
China Academic 全 部 学 科 | 有 全 文 的 学 科 
向 Loray& nformaton ,Applied Sciences(190954) » Language, Literature, and Linguistics(29333) 
Gaus System 


» Biological Sciences(86597) » Philosophy, Religion, and Theology(15817) 
Me ProQuest > Communications and the Arts(34199) > psychology(32060) 
» Earth and Environmental Sciences(35135) > Pure Saences(92784) 
PE BeijingZhongke VE | | ,Education(58023) » Social Sciences(124764) 
Company 


> Health Sciences(47685) 


12-23 PQDT 学 位 论文 检索 系统 主 界面 
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1. 基本 检索 方法 

(1) 使 用 "and? 或 空格 搜索 全 部 关键 词 。 多 个 关键 词 用 空格 或 “and” 隔 开 , 如 "digital 
library” 或 “digital and library”, 这 两 个 词 将 同时 出 现在 标题 .正文 或 摘要 中 (两 个 词 的 出 
现 位 置 不 一 定 相 邻 ) 。 

(2) 使 用 双 引 号 搜索 完整 的 关键 词 。 如 果 输 入 的 关键 词 本 身 包括 空格 并 且 不 希望 被 
分 隔 , 可 以 在 关键 词 两 边 加 上 西 文 双 引号 ,如 "digital library”。 

(3) 使 用 “OR" 搜 索 任意 关键 词 。 搜 索 多 个 关键 词 中 的 任 一 词 , 如 “digital or 
library”, 这 时 搜索 结果 将 包含 这 两 个 词 中 的 任 一 个 或 全 部 。 

(4) 使 用 "and nof 排除 关键 词 。 排 除 包含 指定 关键 词 的 搜索 结果 ,如 "digital library 
and not study”, 这 时 搜索 结果 将 同时 包含 前 两 个 词 ,但 不 包含 "study”。 

2. 高 级 检索 

学 位 论文 的 高 级 检索 包括 论文 标题 摘要、 学 科 、 人 作者、 单位、 导师、 来 源 、 出 版 时 间 、 学 
位 等 级 .语种 ISBN 之 间 的 选择 过 滤 及 它们 之 间 的 检索 逻辑 表达 (人 逻辑 与 ,或 非 )。 见 
图 12-24。 


ProQuest 学 位 论文 全 文 检索 平台 


欢迎 使 用 ! | 首页 >> 高 吕 作案 
您 所 在 的 位 置 是: 站 
ii 检索 符合 以 下 条 件 的 论文 
相关 链接 | [三 国 asuf [EN 加 Ene| 
中 国 训 尘 教育 文献 包含 以 下 [所 有 词 加 [#a 国 
身 保卫 条 也 SU 下 医 避 Ea| 
PQ Proauest 包含 以 下 [所 有 词 区 ] Ee 
pa eu 和 
| 厅 源 _ 国 | 如 [所 胎 区 ] ] 
出 版 年 度 : 年 至 于 


学 位 : 国 不 限 四 博士 四 硕士 
语种 : | 全 部 国 
显示 : 加 全 部 刁 只 显示 有 全 文 的 结果 


图 12-24 PQDT 学 位 论文 检索 系统 高 级 检索 界面 
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12.3.3 重要 国内 学 位 论文 数据 库 检 索 

1. 中 国学 位 论文 数据 库 

中 国学 位 论文 数据 库 资 源 由 国家 法 定 学 位 论文 收藏 机 构 中 国 科 技 信息 研究 所 提供 ， 
并 委托 万 方 数据 加 工 建 库 ,收录 了 自 1977 年 以 来 我 国 各 学 科 领 域 的 博士 学 位 、 硕 士 学 位 、 
研究 生 论文 。《 中 国学 位 论文 全 文 数 据 库 》 精 选 相关 单位 近 些 年 来 的 博 硕 论文 ,涵盖 月 然 
科学 .数理 化 天文. 地 球 . 生 物 . 医 药 `. 了 卫生、 工业 技术 .航空 .环境 .社会 科学 .人 文 地 理 等 
各 学 科 领 域 ,充分 展示 了 中 国 研究 生 教育 的 庞大 阵容 。 

(1) 检索 概述 。 本 系统 为 “中 国学 位 论文 全 文 数据 库 ? 提 供 了 多 种 检索 途径 ,包括 个 
性 化 检索 高 级 检索 .字典 检索 、 分 类 检索 等 ,以 便于 用 户 迅 速 检索 出 所 需要 的 论文 资源 。 

“个 性 化 检索 "入口 针 对 具体 数据 资源 的 特点 ,为 用 户 提供 了 一 个 方便 易 用 、 组 配 灵活 
的 检索 入 口 ,适合 所 有 用 户 使 用 。 

“高 级 检索 ”支持 布尔 检索 . 相 邻 检索 ,. 右 截断 检索 、. 同 字段 检索 ` 同 句 检索 和 位 置 检索 
等 全 文 检索 技术 ,具有 较 高 的 查 全 率 和 查 准 率 。“ 高 级 检索 ”功能 适合 对 检索 技术 有 和 较 多 
了 解 的 用 户 使 用 。 

本 系统 灵活 易 用 、 高 效 强大 的 检索 功能 基于 其 灵活 .先进 的 数据 库 索引 技术 。 用 户 在 
利用 此 系统 检索 时 ,系统 先 利 用 事先 建 好 的 索引 表 找 出 符合 条 件 的 记录 ,再 从 数据 库 中 读 
取 相 关 记 录 。 本 系统 通过 “字段 编号 ”识别 字段 ,通过 “索引 编号 ”识别 索引 项 。 因 此 ,用 户 
限定 在 某 一 字段 检索 时 ,实际 上 是 限定 在 对 应 索引 号 中 检索 。 

此 处 介绍 可 检索 字段 时 ,会 在 各 个 字段 名 称 后 的 括号 内 列 出 其 对 应 索引 项 “编号 ”。 
使 用 本 系统 “高 级 检索 ”功能 的 用 户 可 能 需要 了 解 这 方面 内 容 。 

“学 位 论文 全 文库 ”的 可 检索 字段 有 论文 题名 (200) .作者 (300)、 作 者 专业 (720) .导师 
姓名 (380) 、 授 予 学 位 (700) 、 授 予 单位 (303) 、 授 予 时 间 (440) 、 分 类 号 (610)、 关 键 词 (620)、 
文摘 (600)。 

“学 位 论文 全 文库 ?中 支持 “精确 匹配 ?检索 的 字段 有 作者 (300) 、 作 者 专业 (720)、 导 师 
姓名 (380) .授予 学 位 (700) ,授予 单位 (303) ,分 类 号 (610) ,关键 词 (620) 。 

(2) 个 性 化 检索 。“ 个 性 化 检索 ?入口 针 对 具体 数据 资源 的 特点 ,为 用 户 提供 了 一 个 
方便 易 用 、 组 配 灵 活 的 检索 入 口 ,适合 所 有 用 户 使 用 。 在 利用 “个 性 化 检索 ”入 口 检索 时 ， 
用 户 只 需 通 过 下 拉 菜 单单 击 所 要 检索 的 字段 ,输入 相应 检索 词 , 便 可 组 配 出 比较 复杂 的 检 
索 表 达 式 ,查找 出 相关 信息 。“ 中 国学 位 论文 全 文 数据 库 ”( 以 下 简称 学 位 论文 库 ) 的 个 性 
化 检索 入 口 如 图 12-25 所 示 。 
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| 中 国学 位 论 立 人 六 2 如 计 检 素 
位 【论文 范围 限制 选择 框 年 代 限制 列表 
逻辑 运算 选择 列表 
请 选择 检索 论文 范围 全 全 部 个 硕士 个 博士 


图 12-25 中 国学 位 论文 文摘 数据 库 个 性 化 检索 界面 


(3) 二 次 检索 。 二 次 检索 是 在 已 有 检索 结果 范围 内 再 一 次 检索 ,以 便 进一步 缩小 检 
索 范 围 。 

“学 位 论文 库 ? 的 检索 结果 显示 格式 如 图 12-26 所 示 。 此 页 面 的 上 方 提供 了 二 次 检索 
人 入口, 其 使 用 方法 与 “个 性 化 检索 "入口 相 同 。 在 此 ,用 鼠标 单 击 此 页 面 下 方 的 "显示 选择 
记录 ”按钮 , 便 可 按 ” 选 择 显 示 格 式 ? 栏 所 指定 的 显示 格式 浏览 选 定 记录 (记录 前 的 方 框 中 
有 和 钩 的 记录 为 选 定 记 录 )。 


数据 库 名 : 学 位 论文 库 检索 命中 记录 数 为 : 35 共 4 页 [3 


12-26 中 国学 位 论文 文摘 数据 库 二 次 检索 实例 


(4) 关联 检索 。 在 一 记录 的 全 部 信息 中 ,不 仅 会 以 适当 形式 给 出 此 记录 的 相关 信息 ， 
还 有 可 能 提供 关联 检索 入 口 。 对 全 文 数据 库 ,还 会 提供 访问 对 应 的 全 文 链接 。 如 图 12-27 
所 示 , 学 位 论文 库 的 “全 部 信息 ”显示 格式 中 不 仅 给 出 了 论文 的 相关 信息 ,还 提供 了 查看 论 
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文 全 文 的 链接 与 “关联 检索 "人 口 。 
WebParallel :一 种 新 型 的 并 行 计 算 模 型 的 设计 与 实现 


【论文 题名 】WebParal1 该 专业 所 有 论文 计算 模型 的 设计 与 实现 
【论文 作者 ] 高 峰 多 


的 但 i 

(人 音 击 全 接 ， 讽 虹 展 于 
【授予 单位 】 西 安 电子 科技 大 学 该 分 类 的 所 有 论文 
| 20000101 

【 分 类 号 】TP312 
【 关键 词 】Java 小 应 用 程序 浏览 

i 54 < 
【文摘 语种 】 中 文 文摘 全 全 
【文摘 】 该 文 是 研究 在 Web 计 算 环境 下 所 有 题 .研究 人 员 提出 了 一 种 新 的 计 
工 模 型 :WebParallel, 它 以 浏览 器 作为 并 行 节 扣 宙 ,本 用 程序 作为 并 行 任务 单元 , 用 户 根 
据 自愿 的 原则 加 入 并 行 计算 . Hebpaeal101 简 天 分 为 疯 训 。 ee 为 程序 员 提 供 了 一 
个 同 构 的 编程 环境 , 减轻 了 程序 员 设计 并 行 应 用 程序 的 负担 ;下 层 为 运行 支持 系统 runtime 
system) 层 , 负责 把 虚拟 机 映射 到 实际 的 Web 环 境 上 . 在 论文 中 , 针对 并 行 计 算 和 Web 的 特点 , 研究 
人 员 重 点 研究 了 四 个 问题 :1. 共享 数据 的 存储 问题 ;2. 并 行 任务 的 通讯 问题 ; 3. 并 行 应 用 的 分 布 
问题 ;4. 并 行 计 算 的 负载 调度 问题 .研究 人 员 实 现 了 该 模型 并 在 模拟 环境 下 进行 了 实验 ,证 明 该 
异型 有 较 好 的 应 用 价值 


证 二 三 反 |， 测 丰 
查看 全文 论文 全 文 。 


运行 支持 系统 ”并行 计算 WebParallel 


图 12-27 中 国学 位 论文 文摘 数据 库 关联 检索 实例 


专业 名 称 : 单 击 专 业 名 称 , 可 检索 出 此 “学 位 论文 库 ” 中 “专业 名 称 ”为 此 专业 的 所 有 


导师 姓名 : 单 击 导师 姓名 ,可 检索 出 此 “学 位 论文 库 ” 中 “导师 姓名 ”为 此 姓名 的 所 有 
论文 。 

授予 单位 : 单 击 授 予 单位 ,可 检索 出 此 “学 位 论文 库 ” 中 “授予 单位 ”为 此 单位 的 所 有 
论文 。 

分 类 号 : 单 击 一 分 类 号 ,可 检索 出 此 “学 位 论文 库 ” 中 此 分 类 下 的 所 有 论文 。 

关键 词 : 单 击 一 关键 词 ,可 检索 出 此 “会 议论 文库 ”中 “关键 词 "? 中 有 这 个 词 的 所 有 
论文 。 
查看 全 文 : 单 击 “ 查 看 全 文 ” 这 个 链接 ,可 以 查看 这 篇 论文 的 全 文 。 
2. CNKI 中 国 优秀 博 硕 士 学 位 论文 数据 库 
CNKI 中 国 优秀 博 硕 士 学 位 论文 数据 库 是 目前 国内 相关 资源 最 完备 、 高 质量 、 连 续 动 
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态 更 新 的 中 国 优 秀 博 硕士 学 位 论文 全 文 数据 库 。 目 前 ,累积 博 硕 士 学 位 论文 全 文 文献 近 
300 万 篇 (从 1984 年 至 今 的 博 硕 士 学 位 论文 )。 履 盖 基 础 科学 .工程 技术 .农业 、 医 学、 哲 
学 、 人 文 .社会 科学 等 各 个 领域 ,收录 全 国 426 家 培养 单位 的 博士 学 位 论文 和 699 家 硕士 
培养 单位 的 优秀 硕士 学 位 论文 。 产 品 分 为 十 大 专辑 : 基础 科学 、 工 程 科技 工 .工程 科技 
I ,农业 科技 、 医 药 卫生 科技 .哲学 与 人 文科 学 .社会 科学 工 . 社 会 科学 工 .信息 科技 、 经 济 
与 管理 科学 。 十 大 专辑 下 分 为 168 个 专题 。 

(1) CAJ Vierwer 专门 浏览 器 与 全 文 浏览 。CAJ 为 中 国学 术 期 刊 全 文 数据 库 的 英文 
缩写 (China Academic Journals) ,CAJ Vierwer 是 CNKI( 中 国 知识 基础 设施 工程 ) 资 源 的 
专门 全 文 浏览 器 。 其 标识 见 图 12-28。 


人 镰 


CAJViewers7.2 


图 12-28 CAJ Vierwer 浏览 器 标识 


CAJ Vierwer 阅读 器 是 光盘 国家 工程 研究 中 心 .清华 同方 知 网 (北京 ) 技 术 有 限 公司 
的 系列 产品 , 它 支 持 中 国 期 刊 网 的 CAJ.NH、KDH 和 PDF 格式 文件 。 它 可 以 在 线 阅读 中 
国 期 刊 网 的 原文 ,也 可 以 阅读 下 载 到 本 地 硬盘 的 中 国 期 刊 网 全 文 。 主 要 全 文 阅读 功能 有 
以 下 几 项 : 

@ 页 面 设置 : 改变 文章 原版 显示 的 效果 ,可 以 设置 两 种 页 面 显 示 方 式 , 即 对 开 显示 及 
连续 对 开 显 示 。 

@ 浏览 页 面 : 实现 页 面 的 任意 跳 转 , 页 面 内 容 旋转 与 标注 。 

@ 查找 文字 : 对 于 非 扫描 文章 ,提供 全 文字 符 串 查询 功能 。 

@ 切换 显示 语言 : 除了 提供 简体 中 文 外 ,还 提供 了 繁体 中 文 、 英 文 显示 方式 ,方便 海 
外 用 户 使 用 。 

@ 文本 图 像 摘录 : 实现 文本 及 图 像 摘 录 并 可 将 摘录 结果 粘贴 到 WPS、WORD 等 纺 
辑 器 中 进行 任意 编辑 。 
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@ 打印 及 保存 : 将 可 查询 到 的 文章 以 x .caj、.kdh、.nh、.pdf 文件 格式 保存 ,并 可 将 
其 按照 原版 显示 效果 打印 ,可 以 打印 预览 或 设置 书面 打印 。 

@ 内 容 转换 : 可 以 将 . caj 格式 的 内 容 转 换 为 . word 或 . wps 格式 的 内 容 。 

CAJ Vierwer 浏览 器 的 内 容 目录 查阅 实例 见 图 12-29 。 
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12-29 CAJ Vierwer 浏览 器 的 内 容 目录 查阅 实例 图 


(2) 检索 类 型 。CNKI 中 国 优秀 博 硕士 学 位 论文 数据 库 与 其 他 的 CNKI 资源 库 ( 例 如 
期 刊 库 等 ) 一 样 提供 有 基本 检索 、 高 级 检索 、 专 业 检索 、 基 金 检索 和 句子 检索 五 种 检索 。 见 
图 12-30。 
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| i ES 到 年。 优秀 论文 加 别 :| 限 = 
团团 工程 科技 1 加 导师 = 和 SEE i 

时 移 素 
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回 团 首 学 与 人 文科 学 N 例文 村 机 

前 介 : 是 | 参考 文献 备 高 所 量 、 连 里 动态 更 新 的 中 国 优秀 情 硕 二 学位 论文 全 文才 据 库 。 店 前， 累积 博 硕士 学 位 论文 全 文 广 机 

回 因 社会 科学 ! 旬 29 中 图 分 类 号 


出 上 内容: ”型 学 科 专 业 名 称 K、 寂 ,医学 、 首 学 、 人 文 、 社 会 科 学 等 个 人 二。 


图 12-30 中国 优秀 博 硕 士 学 位 论文 数据 库 的 检索 类 型 示意 图 


检索 条 件 即 检索 项 或 检索 式 的 基本 信息 查询 与 过 滤 条 件 包括 : 

Q@ 基本 检索 项 包括 学 位 论文 的 主题 .题名 .作者 .导师 .授予 单 位 .关键 词 、. 摘 要 、 目 
录 全文、 参考 文献 .分 类 号 ,学科 专 业 等 。 

@ 检索 词 之 间 的 布尔 逻辑 关系 : 并 含 .或 含 与 不 含 。 

@ 时 间 范 围 限定 ,在 1980 年 到 2016 年 之 间 任 意 选 择 一 个 时 间 点 或 时 间 段 。 

@ 论文 级 别 的 查询 过 滤 : 国家 级 优秀 论文 .省 级 优秀 论文 和 校 级 优秀 论文 。 

其 他 的 高 级 检索 (针对 熟练 用 户 ) .专业 检索 (针对 专门 信息 服务 人 员 、 信 息 分 析 人 
员 )、 基 金 检 索 ( 针 对 某 一 基金 项 目的 研究 内 容 聚 类 ) 和 句子 检索 (查询 包含 两 个 关键 词 的 
句子 ,实现 对 事实 的 检索 ) 的 方法 大 致 相近 。 

(3) 高 级 检索 。 主 要 针对 复杂 检索 主题 ,便于 获得 准确 度 高 ( 即 高 查 准 率 ) 的 检索 结 
果 。 高 级 检索 可 以 对 高 达 八 个 主要 检索 项 (主题 .题名 .关键 词 . 摘 要、 全 文 、 参 考 文献 .分 
类 号 和 学 科 专 业 ) 进 行 逻辑 组 合 检 索 以 及 同时 对 七 个 辅助 检索 项 进行 逻辑 查询 (学 位 授予 
时 间 、 数 据 更 新 时 间 、 授 予 单位 \ 作 者 、 作 者 单位 \ 支 持 基金 和 优秀 论文 等 级 )。 见 图 12-31。 

(4) 检索 结果 的 排序 。 对 于 检索 结果 ,可 以 依据 查询 的 主题 相关 度 、 发 表 时 间 顺 序 、 
引用 量 ` 下 载 量 .学 位 授予 时 间 来 排序 。 例 如 以 "网 页 排序 ?或 者 "PageRank” 为 主题 词 
(2 个 词 的 中 英文 意义 相同 ,所 以 逻辑 式 为 或 ) 且 时 间 范 围 过 滤 为 “2005 一 2016 年 ”, 检 
索 到 需求 论文 62 篇 。 依 据 论 文 的 下 载 量 对 结果 进行 排序 ,部 分 检索 实例 如 图 12-32 
所 示 。 

(5) 检索 结果 内 容 的 全 文 下 载 与 阅读 。 对 于 选择 的 检索 结果 内 容 既 可 以 在 线 全 文 阅 
读 , 也 可 以 对 学 位 论文 分 页 、 分 章 或 整 本 下 载 。 下 载 后 的 论文 内 容 需 要 在 其 专用 阅读 器 环 
境 下 阅读 使 用 。 见 图 12-33。 
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博 硕士 v| 博 +t/ 硕 圭 
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回 中 英文 扩展 检索 


12-31 中 国 优秀 博 硕士 学 位 论文 数据 库 的 高 级 检索 界面 
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12-32 中国 优秀 博 硕士 学 位 论文 数据 库 的 检索 结果 排序 部 分 实例 图 
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基于 PageRank 算 法 的 搜索 引擎 优化 策略 研究 


分 页 下 载 分 享 下 载 到 本 下 载 | 同 在 线 问 计 ”得 , 入 CAJViewer 下 载 不 支持 迅雷 等 下 载 工具 。 
nS 


图 12-33 ”中国 优 秀 博 硕士 学 位 论文 数据 库 的 检索 结果 内 容 下 载 与 阅读 模块 提示 


(6) 学 位 论文 文献 间 的 引用 网 络 图 谱 。 学 位 论文 文献 间 的 引用 网 络 图 谱 ( 见 图 12-34) 
揭示 了 某 一 研究 主题 相关 的 学 位 论文 文献 之 间 的 研究 价值 脉络 与 相互 关联 性 影响 。 这 对 
于 大 学 生 而 言 , 特 别 是 研究 生 进行 探究 性 学 习 和 研究 性 学 习 有 重要 参考 价值 。 这 不 仅 使 
得 大 学 生 用 户 能 够 利用 它 逐 步 把 握 某 一 研究 主题 的 研究 进程 与 研究 者 们 的 相互 影响 关 
系 ,也 是 创新 思维 启发 或 进一步 深入 研究 的 重要 基础 。 


| 本文 链 接 的 文献 网 络 图 示 ; 
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图 12-34 中国 优 秀 博 硕 士 学 位 论文 数据 库 的 文献 间 网 络 关 系 


Q@ 参考 文献 : 指 在 学 术 研究 过 程 中 对 某 些 文献 的 整体 性 参考 与 借鉴 。 

@ 共 引 文献 : 共 引 文献 也 称 同 引文 献 ,是 指 与 本 文 有 相同 参考 文献 的 文献 ,与 本 文 有 
共同 研究 内 容 。 共 引文 献 数量 越 多 ,文献 间 的 相关 性 越 大 。 

@ 同 被 引文 献 : 是 指 与 本 文 同时 被 作为 参考 文献 引用 的 文献 ,与 本 文 共同 作为 进 一 
步 研究 的 基础 。 如 果 A、B 两 篇 文献 均 被 C 文献 作为 参考 文献 引用 , 则 文献 A 与 文献 B 
存在 同 被 引 关系 。 

@ 引证 文献 : 是 指引 用 本 文 的 文献 ,是 本 文 研究 工作 的 继续 、 应 用 、 发 展 或 评价 。 引 
证 文献 是 学 术 论 著 撰写 中 不 可 或 缺 的 组 成 部 分 ,也 是 衡量 学 术 著述 影响 大 小 的 重要 因素 。 
作者 的 文献 被 引证 的 次 数 越 多 ,此 作者 的 文献 越 有 价值 。 

@ 二 级 参考 文献 : 本 文 参考 文献 的 参考 文献 。 

@ 二 级 引证 文献 : 本 文 引 证 文献 的 引证 文献 。 
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12.4 专利 文献 资源 检索 


专利 文献 是 科学 技术 的 宝库 。 它 融 技术 、 法 律 和 经 济 信息 于 一 体 ,是 各 单位 各 部 门 领 
导 了 解 掌握 国内 外 技术 发 展现 状 , 进 行 技术 预测 和 做 出 科学 决策 的 依据 ,是 科研 人 员 和 工 
程 技 术 人 员 进 行 课题 研究 ,解决 技术 难题 不 可 缺少 的 工具 ;是 发 明 人 寻找 技术 资料 ,不 断 
做 出 新 的 发 明 创造 的 源泉 。 在 技术 贸易 中 ,专利 文献 可 用 于 了 解 专利 技术 的 法 律 状态 ;在 
技术 和 市 场 竞 争 中 ,专利 文献 可 用 于 判定 侵权 行为 ;在 申报 国家 发 明成 果 奖 和 申请 专利 
时 ,专利 文献 可 用 于 确定 其 新 颖 性 、 创 造 性 。 企 业 可 利用 专利 文献 了 解 和 监视 同 领域 竞争 
对 手 的 情况 ,开发 适销 对 路 的 新 产品 。 专 利文 献 可 以 为 国家 经 济 建设 服务 ,为 各 单位 增加 
竞争 与 发 展 活力 服务 。 


12.4.1 专利 与 专利 文献 概念 

专利 (patent) 一 词 包含 三 层 含义 : 一 指 专利 法 保护 的 发 明 创造 与 设计 ,二 指 专利 权 ， 
三 指 专利 说 明 书 等 专利 文献 。 其 核心 是 一 种 法 律 制度 , 即 专 利 制度 ,而 专利 权 和 专利 文献 
是 专利 的 具体 体现 。 

专利 权 是 知识 产权 的 一 种 。 作 为 一 种 无 形 财产 ,专利 权 具 有 专 有 性 、 地 域 性 和 时 间 
性 。 知 识 产 权 是 人 们 利用 知识 获得 成 果 的 专 有 权 , 是 相对 实物 产权 而 言 的 ,所 以 也 叫 智力 
成 果 权 。 知 识 产权 受 法 律 保护 ,任何 人 未 经 知识 产权 所 有 人 的 许可 ,不 准 使 用 .制造 或 销 
售 其 成 果 , 否 则 就 构成 侵权 行为 ,并 受到 法 律 的 制裁 。 知 识 产 权 包 括 工业 产权 和 版 权 两 部 
分 。 工 业 产 权 是 涉及 工业 农业、 商业、 采掘 业 和 一 切 制造 成 品 或 天 然 产品 的 产权 ,包括 专 
利 、 商 标 、 服 务 标记 .厂商 名 称 、 货 源 名 称 或 原 产 地 名 称 和 制止 不 正当 竞争 等 。 版 权 也 称 著 
作 权 , 指 作者 或 出 版 者 对 其 作品 享有 印刷 、 出 版 .复制 和 销售 等 权利 。 

专利 文献 (patent literature) 是 指 记录 有 关 发 明 创 造 信息 的 文献 。 广 义 包 括 专 利 申请 
书 、 专 利 说 明 书 、 专 利 公 报 、 专 利 检 索 工具 以 及 与 专利 有 关 的 一 切 资料 ;狭义 仅 指 各 个 国家 
或 地 区 的 专利 局 出 版 的 专利 说 明 书 或 发 明说 明 书 。 


12.4.2 专利 文献 的 类 型 与 作用 

1. 专利 文献 的 主要 类 型 

(1) 按 专利 的 实质 内 容 划 分 。 由 于 世界 各 国 的 专利 法 不 同 , 专 利 种 类 的 划分 也 不 尽 
相同 。 美 国 分 为 发 明 专利 外观 设 计 专利 和 植物 专利 。 中 国 、 日 本 、 德 国 等 国 分 为 发 明 专 
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利 、 实 用 新 型 专利 和 外 观 设计 专利 。 发 明 专利 是 国际 上 公认 的 应 具备 新 颖 性 .先进 性 和 实 
用 性 的 新 产品 或 新 方法 的 发 明 ; 实 用 新 型 专利 是 对 机 器 .设备 .装置 .器 具 等 产品 的 形状 构 
造 或 其 结合 所 提出 的 实用 技术 方案 ;外 观 设计 专利 是 指 对 产品 的 外 形 、 图 案 、 色 彩 或 其 结 
合 做 出 的 富有 美感 而 又 适 于 工业 应 用 的 新 设计 。 实 用 新 型 专利 和 外 观 设 计 专利 都 涉及 产 
品 的 形状 ,两 者 的 区 别 是 : 实用 新 型 专利 主要 涉及 产品 的 功能 ,外 观 设 计 专 利 只 涉及 产品 
的 外 表 。 如 果 一 件 产品 的 新 形状 与 功能 和 外 表 均 有 关系 ,申请 人 可 以 申请 其 中 一 个 ,也 可 
分 别 申请 。 

(2) 按 专利 刊载 的 形式 划分 : 专利 申请 书 、 专 利 说 明 书 .专利 公报 .专利 检索 工具 、 专 
利 分 类 表 .与 专利 有 关 的 法 律 文件 及 诉讼 资料 等 。 其 中 尤为 重要 的 是 专利 说 明 书 和 专利 
公 

专利 说 明 书 是 专利 文献 的 主体 。 它 是 个 人 或 企业 为 了 获得 某 项 发 明 的 专利 权 , 在 申 
请 专利 时 必须 向 专利 局 呈 交 的 有 关 该 发 明 的 详细 技术 说 明 , 包 括 经 审查 批准 的 审定 说 明 
书 、 经 审查 但 尚未 批准 的 展 出 说 明 书 和 未 经 审查 的 公开 说 明 书 (专利 申请 书 )。 专 利 说 明 
书 的 作用 是 公开 新 发 明 创造 的 技术 内 容 , 限 定 专利 权 保 护 的 范围 。 因 此 ,专利 说 明 书 的 内 
容 主要 涉及 的 就 是 发 明 创造 的 技术 内 容 和 权利 内 容 。 

各 国 的 专利 说 明 书 都 有 固定 的 格式 ,一 般 由 三 部 分 组 成 : 一 是 著录 项 目 ( 标 头 ), 包 括 
专利 号 .专利 申请 号 .申请 日 期 公布 日 期 .专利 分 类 号 发 明 题目 .专利 摘要 专利 权 范围 、 
法 律 上 有 关联 的 文件 .专利 申请 人 专利 发 明 人 ,专利 权 所 有 者 等 。 每 个 著录 事项 前 通常 
有 国际 通用 的 数据 识别 代号 (INID)。 二 是 发 明说 明 书 (正文 ) ,是 申请 人 对 发 明 技术 背 
景 . 发 明 内 容 以 及 发 明 实施 方式 的 说 明 , 常 常 附 有 插图 。 三 是 专利 权 项 ( 权 项 或 权利 要 求 
书 ), 是 专利 申请 人 要 求 专利 局 对 其 发 明 给 予 法 律 保护 的 项 目 , 当 专利 批准 后 , 权 项 具有 直 
接 的 法 律 作用 。 

2. 专利 文献 的 主要 作用 

(1) 对 专利 申请 进行 专利 性 检索 。 申 请 人 在 申请 专利 前 ,应 检索 相关 的 专利 文献 ,看 
看 该 项 发 明 是 否 具有 新 颖 性 、 创 造 性 与 实用 性 ,以 免 提 出 申请 后 不 能 获得 专利 权 ; 发 明 专 
利 的 申请 人 请 求实 质 审查 , 按 专利 法 规定 应 向 专利 局 提交 相关 的 参考 资料 ,包括 专利 
文献 。 

(2) 启迪 发 明 创 造 思路 。“ 站 在 巨人 的 肩膀 上 ”就 是 专利 利用 的 重要 名 言 ,许多 发 明 
是 从 他 人 的 发 明基 础 上 发 展 起 来 的 ,或 者 从 中 获得 启发 借鉴。 

(3) 可 以 了 解 某 领域 的 最 新 动态 。 专 利文 献 的 报导 比 其 他 文献 早 1 一 3 年 ,而 且 一 项 
新 技术 的 诞生 到 推广 应 用 有 个 过 程 ,存在 一 个 时 间 差 , 少 则 几 个 月 ,多 则 几 十 年 。 因 此 我 
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们 从 专利 文献 中 可 以 了 解 科技 发 展 的 最 新 动态 。 

(4) 有 利于 技术 转让 。 企 业 科 技工 作者 在 寻找 新 技术 时 ,无 非 是 两 种 途径 : 一 是 企业 
主动 出 击 , 二 是 发 明 人 毛遂自荐 。 对 于 主动 出 击 , 较 好 的 方法 是 检索 专利 文献 ,在 该 技术 
领域 中 检索 出 众多 的 技术 ,然后 择优 筛选 ;对 于 毛遂自荐 ,更 应 检索 专利 文献 ,可 以 避免 被 
自荐 者 的 发 明 特点 所 迷惑 。 

(5) 有 利于 企业 的 技术 开发 。 从 以 往 的 教训 来 看 ,许多 企业 盲目 研制 一 些 新 产品 ,不 
仅 造 成 人 力 、 物 力 、 财 力 的 浪费 ,而 且 可 能 与 以 往 的 技术 相 比 ,并 不 是 先进 的 技术 ,结果 其 
产品 在 市 场 上 销售 不 畅 。 进 行 专利 检索 ,可 以 避免 浪费 和 重复 劳动 ,而 且 可 以 借鉴 以 往 的 
发 明 , 开 发 出 技术 先进 且 有 市 场 潜力 的 产品 :同时 还 可 以 从 中 了 解 竞 争 对 手 的 发 展 动态 ， 
以 便 采 取 相 应 的 应 对 措施 。 

(6) 有 利于 引进 国外 先进 技术 和 设备 。 从 以 往 的 引进 来 看 ,存在 不 少 弊 端 : 盲目 引 
进 , 不 是 引进 最 先进 的 技术 ,技术 转让 中 的 一 些 专利 是 过 期 专利 ,结果 支付 了 过 高 的 技术 
使 用 费 等 。 通 过 检索 专利 文献 ,不 仅 可 以 避免 上 述 弊端 ,而 且 可 以 货 比 三 家 ,从 中 找 出 先 
进 且 又 适合 国情 的 技术 。 

(7) 作为 专利 诉讼 的 有 力 依据 。 在 专利 侵权 诉讼 中 ,被 告 在 被 起 诉 侵权 时 ,应 检索 专 
利文 献 ,查看 一 下 原告 的 专利 资料 及 相关 的 背景 技术 ,以 避免 败诉 ;专利 申请 人 对 于 专利 
局 复审 委员 会 做 出 某 决 定 ( 驶 回 或 撤销 或 无 效 或 维持 等 ) 不 服 向 人 民法 院 起 诉 时 ,同样 应 
检索 专利 文献 ,并 提供 相关 的 佐证 资料 。 


12.4.3 国际 专利 分 类 

专利 文献 检索 主要 有 三 种 途径 , 即 分 类 检索 途径 .专利 权 人 检索 途径 和 序号 检索 途 
径 ,其 中 最 常用 的 是 分 类 检索 途径 。 而 分 类 检索 最 典型 的 检索 工具 是 国际 专利 分 类 表 。 

《国际 专利 分 类 表 》(IPC 分 类 ) 是 根据 1971 年 签订 的 《国际 专利 分 类 斯 特 拉 斯 堡 协 
定 》 编 制 的 ,是 目前 唯一 国际 通用 的 专利 文献 分 类 和 检索 工具 ,为 世界 各 国 所 必 备 。 问 世 
的 40 多 年 里 ,IPC 对 于 海量 专利 文献 的 组 织 、 管 理 和 检索 ,做 出 了 不 可 磨灭 的 贡献 。 由 于 
新 技术 的 不 断 涌现 ,专利 文献 每 年 增长 约 150 万 件 ,目前 约 有 5000 万 件 。 

另外 ,IPC 的 建立 是 基于 纸 件 专 利文 献 的 管理 与 检索 ,在 计算 机 、 通 信和 网 络 等 新 技术 
快速 发 展 的 今天 , 它 显现 出 一 些 不 适应 。 为 了 让 IPC 名 副 其 实地 成 为 世界 各 国 专利 局 以 
及 其 他 使 用 者 在 确定 专利 申请 的 新 颖 性 、 创 造 性 时 进行 专利 文献 检索 的 一 种 有 效 检索 工 
具 ,IPC 联盟 大 会 成 员 国 、 世 界 知识 产权 组 织 (WIPO) 在 1999 一 2005 年 对 国际 专利 分 类 表 
进行 了 改革 ,将 第 8 版 IPC 分 成 基本 版 和 高 级 版 两 级 结构 。 第 8 版 IPC 基本 版 约 20 000 条 ， 
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包括 部 ,大 类 、 小 类 ,大 组 和 在 某 些 技术 领域 的 少量 多 点 组 的 小 组 。 第 8 版 IPC 高 级 版 约 
70 000 条 ,包括 基本 版 以 及 对 基本 版 进一步 细 分 的 条 目 。 高 级 版 供 属于 PCT 最 低 文献 量 
的 工业 产权 局 和 大 的 工业 产权 局 使 用 ,用 来 对 大 量 专利 文献 进行 分 类 。 

(1) IPC 分 类 表 共 分 以 下 九 个 分 册 。 

第 一 分 册 一 一 人 类 生活 需要 。 

第 二 分 册 一 一 作业 、 运 输 。 

第 三 分 册 一 一 化 学 、 冶 金 。 

第 四 分 册 一 一 纺织 、 造 纸 。 

第 五 分 册 一 一 固定 建筑 物 。 

第 六 分 册 一 一 机 械 工 程 、 照 明 、 加 热 . 武 器 \ 爆 破 。 

第 七 分 册 一 一 物理 。 

第 八 分 册 一 一 电学 。 

第 九 分 册 一 一 使 用 指南 。 

(2) IPC 八大 类 , 即 : 

A 一 一 人 类 生活 需要 。 

B 一 一 作业 、 运 输 。 

C 一 一 化 学 .冶金 。 


D 一 一 纺织 .造纸 。 

E 一 一 固定 建筑 物 。 

FE 一 一 机 械 工程 照明、 加热 武器、 爆破 。 
G 一 一 物理 。 

HH 一 一 电学 。 


为 了 便于 查找 IPC 分 类 号 ,每 一 版 的 IPC, 国 际 知 识 产 权 组 织 都 会 配套 编 IPC 正式 索 
引 (officail index to the IPC) ,也 就 是 IPC 关键 司 及 类 号 对 照 索 引 。 它 是 为 了 帮助 用 户 从 
主题 词 人 手 , 确 定 发 明 的 IPC 类 号 而 设置 的 辅助 性 检索 工具 。 该 索引 以 关键 词 作为 标 目 ， 
其 后 给 出 该 关键 词 所 属 技术 领域 的 IPC 类 号 。 有 些 关 键 词 下 又 进一步 划分 出 下 属 关键 
词 ,用 来 限定 说 明 标 目的 含义 。IPC 只 用 于 发 明 专 利和 实用 新 型 专利 的 分 类 与 检索 。 外 
观 设计 专利 的 分 类 与 检索 须 使 用 (国际 外 观 设计 专利 分 类 表 》(ITnternational Industrial 
Design Classification), 
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12.4.4 专利 搜索 引擎 

专利 搜索 引擎 是 针对 专利 信息 的 特殊 性 而 建立 的 专门 搜索 引擎 。 它 采用 先进 的 数据 
挖掘 及 自然 语言 处 理 技术 ,内 置 强大 语义 分 析 引 擎 ,实现 专利 信息 的 智能 化 检索 ;采用 跨 
库 联合 检索 技术 及 中 英文 跨 语言 检索 技术 ,实现 中 外 专利 数据 库 的 联合 统一 检索 及 中 英 
文 混合 检索 ,突破 了 广大 用 户 因 语言 障碍 而 造成 查 全 率 、 查 准 率 的 问题 ;提供 搜索 引擎 式 
检索 .表格 检索 、 表 达 式 检索 .逻辑 检索 等 多 种 检索 方式 ,满足 了 不 同 层次 用 户 对 于 专利 信 
息 检索 的 需求 。 

SooPAT(http://www. soopat. com) 就 是 大 学 生 所 熟悉 的 专利 搜索 引擎 。SooPAT 
立足 专利 领域 ,致力 于 专利 信息 数据 的 深度 挖掘 ,致力 于 专利 信息 获得 的 便捷 化 ,努力 创 
造 最 强大 、 最 专业 的 专利 搜索 引擎 ,为 用 户 实现 前 所 未 有 的 专利 搜索 体验 。SooPAT 拥有 
中 国 最 有 创造 力 的 专利 专家 ,信息 检索 专家 和 系统 架构 专家 ,以 及 众多 持 同一 理想 的 志愿 
者 和 广泛 支持 者 。SooPAT 的 目标 是 让 专利 搜索 平民 化 ,让 不 是 专利 检索 专家 的 你 也 能 
在 瞬间 找到 所 需要 的 专利 。 

1. 专利 引擎 检索 的 一 般 方法 

SooPAT 查询 简洁 方便 , 仅 需 输入 查询 内 容 并 回 车 (Enter) ,或 单 击 “ 搜 索 ” 按 钮 即 可 
得 到 相关 资料 。SooPAT 尽量 让 最 相关 的 专利 文献 出 现在 最 前 面 ,方便 用 户 更 容易 找到 
最 重要 、 最 相关 的 内 容 。 

(1) 搜索 窍门 一 。 多 个 关键 词 之 间 用 空格 隔 开 ,可 获得 更 多 搜索 结果 。 如 "飞机 轮 
胎 ” 比 “飞机 轮胎 ”搜索 结果 要 多 。 


(2) 搜索 窍门 二 。 通 过 申请 (专利 ) 号 .公开 (公告 ) 号 查询 时 ,直接 输入 号 码 , 前 面 不 
用 加 ZL 或 CN。 
(3) 不 用 忽略 词 。SooPAT 会 忽略 “的 ”“ 地 ”“ 得 等 字 词 ,这 类 字 词 不 仅 无 助 于 缩 


小 查询 范围 ,而 且 会 大 大 降低 搜索 速度 。 这 些 词 和 字符 称 为 忽略 词 。 

(4) 检索 分 词 应 用 。 在 一 些 情况 下 ,SooPAT 会 对 查询 词 进 行 适 当 拆 分 ,以 防止 漏 
检 , 比 如 输入 “航空 航天 动力 ”, 会 自动 转换 “航空 AND 航天 AND 动力 ”来 搜索 。 如 不 需 
要 SooPAT 进行 这 种 自动 拆 分 ,只 需 在 查询 词 上 加 英文 单 引 号 ", 比 如 输入 ' 航 空 航天 动 
力 ', 就 不 会 再 拆 分 开 了 。 

(5) 检索 文字 繁 简体 切换 。SooPAT 运用 汉字 繁 简 自 动 转换 系统 ,无 论 输 入 繁体 或 
简体 字 皆 可 查询 专利 。 并 且 可 通过 每 页 右上 角 的 繁 简体 切换 按钮 进行 整 页 的 繁 简体 
切换 。 
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2. 专利 引擎 检索 的 高 级 方法 
SooPAT 的 搜索 框 支持 各 字段 间 组 成 复杂 的 逻辑 检索 式 进行 精确 搜索 ,如 果 用 户 是 
专利 信息 检索 行业 专门 人 员 或 是 熟练 用 户 想 更 精确 地 查询 专利 ,需要 掌握 以 下 内 容 。 
(1) 字 段 限定 。 如 果 需 要 将 查询 词 限定 在 某 一 字段 内 ,可 在 这 个 查询 词 前 加 上 以 下 的 
字段 限定 符 ,注意 ,字段 后 用 英文 冒号 , 见 表 12-1。 
表 12-1 字段 限定 检索 符号 
字段 限定 符 字段 名 称 字段 限定 符 字段 名 称 字段 限定 符 字段 名 称 


SQH 申请 号 SQRQ 申请 日 期 MC 专利 名 称 
ZY 摘要 SQR 申请 人 DZ 地 址 
FMR 发 明 人 FLH 分 类 号 ZFLH 主 分 类 号 


GKH 公开 号 GKRQ 公开 日 期 ZLDLJG 专利 代理 机 构 


DLR 代理 人 LeiXing 专利 类 型 


例如 , “ZY :苹果 ”表示 查询 摘要 里 包括 “苹果 ”这 个 词 的 专利 。 

“MC: 塑料 AND FLH :C08F x ”表示 查询 专利 名 称 包含 “塑料 ”, 且 分 类 号 为 “C08F” 
的 专利 。 

“MC: 塑料 AND FMR: 许 ”表示 查询 专利 名 称 包含 “塑料”, 且 发 明 人 包含 “ 许 ” 的 
专利 。 

(2) 缺 省 符 “*”。 申 请 号 、 公 开 日 期 .公开 号 、 分 类 号 、 主 分 类 号 、 申 请 日 期 这 六 个 字 
段 中 查询 时 ,可 使 用 缺 省 符 ”* ”进行 模糊 搜索 。 

例如 ,“GKRQ:(x*200601) ”表示 查询 公开 日 期 在 "2006 年 1 月 ”的 所 有 专利 。FLH : 
(x* A61B) 表 示 查 询 "*A61B” 分 类 号 小 类 下 的 所 有 专利 。 

(3) 时 间 范 围 查询 。 申 请 日 .公开 日 可 支持 时 间 范 围 查询 [开始 值 TO 结束 值 ] 。 

例如 ,“SQRQ:[2005 TO 2006]” 表 示 查 询 申 请 日 期 在 2005 年 与 2006 年 之 间 的 所 有 
专利 。 

(4) 复杂 逻辑 运算 。SooPAT 支持 AND、OR、NOT 以 及 () 的 逻辑 运算 ,以 空格 间隔 
默认 为 AND 关系 。 

例如 ，“MC :塑料 AND FMR: 许 ”表示 查询 专利 名 称 包含 “塑料 ”, 且 发 明 人 包含 “ 许 ” 
的 专利 。 

“MC :塑料 FMR: 许 ”表示 与 上 述 查 询 结 果 一 致 。 
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“MC :塑料 杯子 ”表示 查询 专利 名 称 包含 塑料”, 且 所 有 查询 域 中 包含 “杯子 ”的 
专利 。 

“MC:; 塑 料 AND ( FMR: 许 OR FMR: 刘 )” 表 示 搜 索 名 称 中 包含 “塑料 ”, 且 发 明 人 中 
包含 “ 许 ” 或 “ 刘 ” 的 专利 。 

3. 专利 的 表格 式 检 索 

就 是 以 丰富 的 专利 内 容 项 目的 表格 形式 提供 用 户 检索 界面 ,用 户 只 需要 使 用 部 分 或 
全 部 表格 项 就 可 以 实现 理想 的 专利 检索 。 

在 检索 时 ,申请 (专利 ) 号 .公开 (公告 ) 号 前 不 用 加 "ZL? 或 “CN”。 字 段 内 各 检索 词 之 
间 可 进行 AND.OR NOT 运算 ,使 用 时 AND.OR NOT 必须 大 写 。 字 段 内 各 检索 词 之 
间 如 以 空格 间隔 ,默认 为 AND 关系 。 表 格式 检索 的 项 目 内 容 说 明 如 下 。 

(1) 申请 (专利 ) 号 。 搜 索 时 需 输入 完整 申请 号 。 申 请 号 前 不 用 加 “ZL” 或 “CN”。 字 
段 内 各 检索 词 之 间 可 进行 AND、OR、NOT 运算 。 字 段 内 各 检索 词 之 间 如 以 空格 间隔 , 默 
认为 AND 关系 。 检 索 示 例如 下 。 

@ 输入 完整 申请 号 ,如 已 知 申 请 号 为 "99111770. 0”, 可 输入 : 99111770. 0。 

@ 已 知 申请 号 为 “200510011420. 0” ,可 输入 : 200510011420. 0。 

@ 已 知 申请 号 前 几 位 为 “20051001142”, 可 输入 : 20051001142。 

(2) 申请 日 。 由 年 .月 .日 三 部 分 组 成 。 直 接 输入 其 年 .月 .日 所 构成 的 连续 8 位 数 
字 , 年 月 .日 各 数字 之 间 不 用 符号 间隔 。 字 段 内 各 检索 词 之 间 可 进行 AND.OR .NOT 运 
算 。 字 段 内 各 检索 词 之 间 如 以 空格 间隔 ,默认 为 AND 关系 。 检 索 示例 如 下 。 

@ 申请 日 为 2015 年 07 月 21 日 ,可 输入 : 20150721。 

@ 申请 日 为 2016 年 ,可 输入 : 2016 。 

@ 申请 日 为 2016 年 07 月 ,可 输入 : 201607 。 

@ 申请 日 为 2013 年 08 月 到 2016 年 6 月 ,可 输入 : [201308 TO 201606] 。 

专利 搜索 引擎 的 表格 式 检索 界面 实例 见 图 12-35 。 

(3) 名 称 。 可 输入 所 知 的 完整 专利 名 称 , 也 可 选用 合适 的 关键 字 进 行 模糊 搜索 。 
应 尽量 选用 合适 的 关键 字 , 以 免检 索 出 过 多 无 关 文 献 。 字 段 内 各 检索 词 之 间 可 进行 
AND、OR、NOT 运算 。 字 段 内 各 检索 词 之 间 如 以 空格 间隔 ,默认 为 AND 关系 。 检 索 示 
例如 下 。 

@ 已 知名 称 中 包含 “计算 机 ”, 可 输入 : 计算 机 。 

@ 已 知名 称 中 包含 “计算 机 ”和 “应 用 ”, 可 输入 : 计算 机 AND 应 用 。 

@ 已 知名 称 中 包含 “计算 机 ”或 “控制 ”, 可 输入 : 计算 机 OR 控制 。 
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园 发 明 辐 实 用 新 型 团 外 观 设计 回 发 明 授 权 
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图 12-35 专利 搜索 引擎 的 表格 式 检索 界面 实例 


@ 已 知名 称 中 包含 “计算 机 ”, 但 不 包含 "电子 "时 ,可 输入 : 计算 机 NOT 电子 。 

(4) 公开 日 。 由 年 .月 .日 三 部 分 组 成 。 直 接 输入 其 年 .月 .日 所 构成 的 连续 8 位 数 
字 。 年 .月 .日 各 数字 之 间 不 用 符号 间隔 。 字 段 内 各 检索 词 之 间 可 进行 AND.OR NOT、 
TO 和 运算。 字段 内 各 检索 词 之 间 如 以 空格 间隔 ,默认 为 AND 关系 。 检 索 示 例如 下 。 

QO@ 公开 日 为 2016 年 08 月 08 日 ,可 输入 : 20160808。 

@ 公开 日 为 2015 年 ,可 输入 : 2015。 

@ 公开 日 为 2016 年 08 月 ,可 输入 : 201608。 

@ 公开 日 为 2013 年 08 月 到 2015 年 6 月 ,可 输入 : [201308 TO 201506]。 

(5) 摘要 。 应 尽量 选用 合适 的 关键 字 , 以 免检 索 出 过 多 无 关 文 献 。 字 段 内 各 检索 词 
之 间 可 进行 AND.OR NOT 运算 。 字 段 内 各 检索 词 之 间 如 以 空格 间隔 ,默认 为 AND 关 
系 。 检 索 示 例如 下 。 

@ 已 知 摘要 中 包含 “计算 机 ”, 可 输入 : 计算 机 。 

@ 已 知 摘要 中 包含 “计算 机 ”和 “应 用 ”, 可 输入 : 计算 机 应 用 。 

@ 已 知 摘要 中 包含 “计算 机 ”或 “控制 ”, 可 输入 : 计算 机 OR 控制 。 

@ 已 知 摘要 中 包含 “计算 机 ”, 但 不 包含 “电子 ”时 ,可 输入 : 计算 机 NOT 电子 。 

(6) 公开 (公告 ) 号 。 直 接 输入 完整 的 公开 (公告 ) 号 。 公 开 ( 公 告 ) 号 前 不 用 加 “ZL” 或 
“CN”。 字 段 内 各 检索 词 之 间 可 进行 AND、OR、NOT 运算 。 字 段 内 各 检索 词 之 间 如 以 空 
格 间隔 ,默认 为 AND 关系 。 检 索 示 例如 下 。 

@ 已 知 公开 (公告 ) 号 为 “1387751”, 可 输入 : 1387751。 
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@ 已 知 公开 (公告 ) 号 前 面 几 位 为 "13877”, 可 输入 : 13877。 

(7) 分 类 号 . 主 分 类 号 。 分 类 号 可 由 《国际 专利 分 类 表 》 查 得 。 其 号 码 格式 包括 部 .大 
类 、 小 类 ,大 组 小组。 字段 内 各 检索 词 之 间 可 进行 AND.OR NOT 和 运算。 字段 内 各 检索 
词 之 间 如 以 空格 间隔 ,默认 为 AND 关系 。 检 索 示 例如 下 。 

@ 已 知 分 类 号 为 “G06F17/30”, 可 输入 : GO6F17/30。 

@ 已 知 分 类 号 起 首部 分 为 “G06F”, 可 输入 : GO6F 。 

@ 若 检 索 分 类 号 为 “G06F17/30” 或 “G06F15/17”, 可 输入 : G06F17/30 OR G06F15/17。 

@ 如 为 外 观 设计 专利 ,其 分 类 号 格式 为 两 位 数字 -两 位 数字 ,如 “06-09”, 可 输入 : 
06-09。 

(8) 名 称 。 可 输入 所 知 的 完整 专利 名 称 , 也 可 选用 合适 的 关键 字 进 行 模 糊 搜 索 。 
应 尽量 选用 合适 的 关键 字 , 以 免检 索 出 过 多 无 关 文 献 。 字 段 内 各 检索 词 之 间 可 进行 
AND、OR、NOT 和 运算。 字段 内 各 检索 词 之 间 如 以 空格 间隔 ,默认 为 AND 关系 。 检 索 示 
例如 下 。 

@ 已 知名 称 中 包含 “计算 机 ”, 可 输入 : 计算 机 。 

@ 已 知名 称 中 包含 “计算 机 ”和 "应 用 ”, 可 输入 : 计算 机 应 用 。 

@ 已 知名 称 中 包含 “计算 机 ”或 “控制 ”, 可 输入 : 计算 机 OR 控制 。 

@ 已 知名 称 中 包含 “计算 机 ”, 但 不 包含 "电子 ”时 ,可 输入 : 计算 机 NOT 电子 。 

(9) 申请 (专利 权 ) 人 。 申 请 (专利 权 ) 人 可 为 个 人 或 团体 。 搜 索 时 可 以 写 出 完整 的 
申请 人 名 ,也 可 以 只 写 出 一 部 分 进行 关键 字模 糊 搜索 。 字 段 内 各 检索 词 之 间 可 进行 
AND.OR NOT 运算 。 字 段 内 各 检索 词 之 间 如 以 空格 间隔 ,默认 为 AND 关系 。 检 索 示 
例如 下 。 

@ 已 知 申请 (专利 权 ) 人 为 “王强 ”, 可 输入 : 王强 。 

@ 已 知 申请 (专利 权 ) 人 为 “微软 公司 ”, 可 输入 : 微软 公司 。 

@ 已 知 申请 (专利 权 ) 人 名 字 中 包含 “ 宁 ”, 可 输入 : 宁 。 

@ 已 知 申请 (专利 权 ) 人 名 字 中 包含 “ 刘 ” 和 “ 宁 ”, 可 输入 : 刘 宁 。 

@@ 已 知 申请 (专利 权 ) 人 为 北京 某 塑料 厂 ,可 输入 : 北京 塑料 。 

@ 已 知 申请 (专利 权 ) 人 中 包含 “微软 公司 ”或 “西门 子 ”, 可 输入 : 微软 公司 OR 西 
人 

(10) 发 明 ( 设 计 ) 人 。 可 以 写 出 完整 的 发 明 ( 设 计 ) 人 名 ,也 可 以 只 写 出 一 部 分 进行 关 
键 字模 糊 搜索 。 字 段 内 各 检索 词 之 间 可 进行 AND、OR、NOT 运算 。 字 有 段 内 各 检索 词 之 
间 如 以 空格 间隔 ,默认 为 AND 关系 。 检 索 示 例如 下 。 
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@ 已 知 发 明 (设计 ) 人 为 “ 囊 隆 平 ”, 可 输入 : 袁隆平 。 

@ 已 知 发 明 (设计 ) 人 名 字 中 包含 “ 宁 ”, 可 输入 : 宁 。 

@ 已 知 发 明 (设计 ) 人 名 字 中 包含 “ 刘 ” 和 “ 宁 ”, 可 输入 : 刘 宁 。 

@ 已 知 发 明 ( 设 计 ) 人 中 包含 囊 隆 平和 邓 启 云 ,可 输入 : 圳 隆平 邓 启 云 。 

@ 已 知 发 明 (设计 ) 人 中 包含 囊 隆 平 或 邓 启 云 ,可 输入 : 袁隆平 OR 邓 启 云 。 

(11) 地 址 。 支 持 模糊 检索 ,模糊 检索 时 应 尽量 选用 合适 关键 字 , 以 免检 索 出 过 多 无 
关 文献 。 字 段 内 各 检索 词 之 间 可 进行 AND、OR、NOT 运算 。 字 上段 内 各 检索 词 之 间 如 以 
空格 间隔 ,默认 为 AND 关系 。 检 索 示 例如 下 。 

@ 已 知 地 址 中 包含 北京 市 ,可 输入 : 北京 市 。 

@ 已 知 地 址 中 包含 北京 市 和 中 关 村 ,可 输入 : 北京 市 中 关 村 。 

@ 已 知 地 址 中 包含 北京 市 或 苏州 市 ,可 输入 : 北京 市 OR 苏州 市 。 

(12) 专利 代理 机 构 。 可 以 写 出 完整 的 专利 代理 机 构 名 称 , 也 可 以 只 写 出 一 部 分 进行 
模糊 搜索 。 字 段 内 各 检索 词 之 间 可 进行 AND.OR .NOT 运算 。 字 段 内 各 检索 词 之 间 如 
以 空格 间隔 ,默认 为 AND 关系 。 检 索 示 例如 下 。 

Q@ 已 知 专 利 代理 机 构 名 称 中 包含 “ 柳 沈 ”, 可 输入 : 柳 沈 。 

@ 已 知 专利 代理 机 构 名 称 中 包含 “贸易 ”和 “专利 ”, 可 输入 : 贸易 专利 。 

@ 已 知 专利 代理 机 构 名 称 中 包含 " 柳 沈 ”或 “贸易 促进 委员 会 ”, 可 用 : 柳 沈 OR 贸易 
促进 委员 会 。 

(13) 代理 人 。 可 以 写 出 完整 的 代理 人 名 ,也 可 以 只 写 出 一 部 分 进行 模糊 搜索 。 字 段 
内 各 检索 词 之 间 可 进行 AND.OR NOT 运算 。 字 段 内 各 检索 词 之 间 如 以 空格 间隔 ,默认 
为 AND 关系。 检索 示例 如 下 。 

Q@ 已 知 代理 人 为 “ 吴 观 乐 ”, 可 输入 : 吴 观 乐 。 

@ 已 知 代理 人 名 字 中 包含 “ 吴 ” 和 “ 乐 ”, 可 输入 : 吴 乐 。 

@ 已 知 代理 人 中 包含 “ 吴 观 乐 ”或 “ 许 鸣 石 ”, 可 输入 : 吴 观 乐 OR 许 鸣 石 。 

4. 专利 搜索 引擎 的 分 类 搜索 

分 类 检索 包括 : 输入 关键 词 查分 类 号 和 输入 分 类 号 查 含义 ,同时 IPC( 国 际 专利 分 类 
号 ) 和 IDC( 国 际 外 观 专利 分 类 号 ) 可 以 自由 切换 。 也 可 直接 在 分 类 类 目 中 选择 需要 的 专 
利信 息 , 例 如 “控制 ,信号 ”。 如 果 进 入 “控制 .信号 ”类 目 中 ,将 同步 展示 IPC 分 类 号 与 分 类 
类 目 , 以 更 加 清晰 的 多 级 类 目 形 式 ( 一 级 .二 级 .三 级 等 ) 展 示 更 加 丰富 的 专利 分 类 导航 ,也 
可 以 在 “中 国 专利 ?和 "世界 专利 ?之 间 切 换 查询 ,实例 见 图 12-36 和 图 12-37 。 
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图 12-36 专利 搜索 引擎 的 分 类 搜索 主 界面 
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12-37 ”专利 搜索 引擎 的 IPC 分 类 查询 实例 


5. 专利 搜索 引擎 的 普通 检索 

普通 检索 针对 专利 信息 资源 检索 的 初级 用 户 , 只 需要 输入 简单 的 专利 主题 词 或 关键 
词 即 可 ,为 了 缩小 专利 的 查询 范围 ,可 以 在 发 明 专 利 、 实 用 新 型 专利 、 外 观 设计 专利 和 发 明 
授权 专利 之 间 选 择 。 同 时 可 以 只 针对 中 国 专利 或 世界 专利 进行 检索 。 普 通 检索 界面 实例 
如 图 12-38 所 示 。 
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Soopdt. 


中 国 专利 | SoopAT 搜 过 访 沼 本 
国 发 明 国 实 用 新 型 贺 外 观 设计 回 发 明 援 权 


世界 专利 | 医 二 2 


包含 99 个 国家 和 地 区 、 超 过 9500 万 专利 文献 ， 时 间 跨 度 超过 350 年 
查 世 界 专 利 应 尽量 使 用 英文 ， 但 也 支持 中 文 输入 。 


图 12-38 专利 搜索 引擎 的 普通 检索 界面 


6. 专利 搜索 引擎 的 高 级 检索 

专利 搜索 引擎 的 高 级 检索 一 般 包含 应 用 以 下 一 些 专利 检索 项 及 其 多 种 逻辑 
组 合 。 
第 一 ,进行 专利 国 别 筛选 ,以 便于 在 9600 万 项 专利 文献 中 大 大 缩小 其 需求 的 地 域 范 
围 ,也 可 以 组 合 在 几 个 国家 之 间 查 询 需 要 的 特定 领域 专利 。 

第 二 ,确定 或 设置 需求 结果 的 排序 ,包括 主题 相关 度 排序 、 申 请 日 期 的 升序 或 降序 排 
列 ,也 可 以 设置 依据 专利 公开 日 的 升序 或 降序 排列 检索 结果 的 输出 

第 三 ,专利 号 码 检 索 , 包 括 应 用 专利 的 专利 文献 号 、 申 请 号 和 优先 权 进 行 查询 。 

第 四 ,专利 检索 词 位 置 限定 ,包括 专利 检索 词 出 现在 专利 标题 ,专利 摘要 或 全 部 正文 
内 容 中 。 

第 五 ,依据 专利 日 期 查询 ,包括 专利 公开 日 期 的 具体 时 间 ( 年 .月 .日 ) 及 其 时 间 段 或 者 
专利 申请 日 期 的 具体 时 间 及 其 时 间 段 

第 六 ,分 类 号 检索 ,应 用 国际 专利 号 (IPC) 或 欧洲 专利 分 类 号 (ECLA) 查 询 。 国 际 专 
利 分 类 号 检索 网 址 : http://www. wipo. int/ipcpub/# refresh= page;http://epub. sipo. 
gov. cn/ipc. jsp。 

第 七 ,专利 权 人 /发 明 人 检索 ,包括 用 专利 权 人 的 名 称 及 其 国 别 代码 查询 ,也 可 以 用 发 
明 人 的 名 称 及 其 国 别 代码 查询 。 检 索 实例 如 图 12-39 所 示 。 


12.4.5 国外 大 型 专利 数据 库 系 统 


1. Derwent Innovations Index(DII) 


将 德 温 特 世界 专利 索引 CWPD 和 德 温 特 专利 引文 索引 PCD 的 内 容 整 合 在 一 起 ,采用 
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国家 邮 区 : 回 所 有 专利 《包含 102 个 国家 和 地 区 ， 超 这 9600 万 专 入 可) 
[ EP 区 专 局 门 WO 世 知 组 织 口 JP 日 本 口 KR 韩国 口 FR 法 国 口 GB 英国 口 CH 瑞士 口 SE 消 典 

了 ES 两 班 牙 口 NL 葵 兰 口 PL 波兰 品 orn ] BE 比利时 口 AT 奥 地 利口 INEp 度 

口 DER 口 bo 大 ] CAi0 拿 大 门 AU 珊 大 利 亚 口 RU 俄罗斯 口 SU 萤 联 门 ZA 南 韭 口 BR 巴西 口 AR 阿根廷 品 MX 生 西 哥 

口 EG 挨 及 丫 EG+ 卫 其 门 \ 以色列 门 MY 马 来 西 正品 ID 印尼 口 SG 新 加 坡 口 TW 中 国 台湾 癌 ] HK 中 


排序 : 园 相 关 度 @ 申请 日 期 降序 @ 申请 日 期 升序 @ 公开 日 期 降序 @@ 公开 日 期 升序 


[sooPAT 扫 过 
号 如 
文献 号 (例如 : US7701068 或 EP2008543) 
申请 S 。 (例如: EP20080011367 或 PCTAU2007/000295 或 WO2007AU00295) 
优先 权 (Mn: US20000603065 或 WO2001US40084) 
常用 
所 有 (例如 : sea) 
标题 | 和 (lt: car) 
摘要 (例如 : car AND sea) 
日 期 
文献 公开 日 期 加 “(例如 : 20080501 或 2010) 
© (ln: 20080501 到 2010) 
专利 申请 日 期 @ (例如 : 20080501 或 2010) 
© | ] 到 | ] (itn: 20080501 到 2010) 
分 类 
国际 专利 分 类 号 (IPC) (例如 : G06F19/00) 
欧洲 专利 分 类 号 (ECLA) (例如 : F03G7110) 
专利 权 人 成 明 人 
专利 权 人 《申请 人 厢 让 人 ) (例如 : SUN MICROSYSTEMS INC) 
专利 权 人 国 别 代码 (ln: Us) 
发 崩 碟 [ li: WILSON WILLIAM) 
发 明 人 国 别 代码 (人 例如: EP) 


SooPAT 搜 索 | [ SooPAT 分 析 | 


图 12-39 专利 搜索 引擎 的 高 级 检索 界面 
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ISI Web of Knowledge 平台 ,通过 学 术 论文 和 技术 专利 之 间 的 相互 引证 的 关系 ,建立 了 专 
利 与 文献 之 间 的 链接 ,可 以 检索 到 全 球 40 多 个 专利 机 构 授权 的 发 明 及 其 引用 信息 。DII 
收录 全 球 40 多 个 专利 机 构 的 1300 万 条 基本 专利 ,3000 万 项 专利 。 每 周 增加 25 000 多 个 
专利 ,分 为 Chemical Electrical Electronic、Engineering 三 部 分 。 在 检索 结果 全 记录 
中 , 单 击 “Original( 原 始 )” 按 钮 ,可 浏览 .下 载 专利 说 明 书 全 文 。 

1) Derwent Innovations Index(CDII) 概 述 

Derwent Innovations Index 提供 Derwent 专业 的 专利 信息 加 工 技术 ,协助 研究 人 员 
简捷 有 效 地 检索 和 利用 专利 信息 , 鸟 殉 全 球 市 场 , 全 面 掌握 工程 技术 领域 创新 科技 的 动向 
与 发 展 。Derwent Innovations Index 还 同时 提供 了 直接 到 专利 全 文 电子 版 的 连接 ,用 户 
只 需 单 击 记录 中 “Original Document” 就 可 以 立刻 链接 到 Thomson Patent Store, 获取 专 
利 申 请 书 的 全 文 电子 版 。Derwent Innovations Index 所 链接 的 专利 全 文 电 子 版 ,包括 以 下 专 
利 机 构 所 公布 的 专利 全 文 ， USPTO( 美 国 专利 局 ,1963 年 以 来 ); German Patent and 
Trademark Office( 德 国 专利 和 商标 局 ,1968 年 以 来 );ESP( 欧 洲 专利 局 ,EP-A 1978 年 以 来 ， 
EP-B 1980 以 来 );WIPO( 世 界 知识 产权 组 织 ,1978 以 来 ); 日 本 专利 申请 书 第 一 页 的 英文 翻 
译 (2000 年 以 来 ); 其 他 许多 国家 ,比如 ,奥地利 .比利时 ,前 东 德 .丹麦 法国、 爱尔兰 .意大利 、 
卢森堡 .荷兰 西班牙 .瑞士 .摩纳哥 等 。DII 数据 库 具 有 以 下 特点 : 增强 的 专利 信息 数据 库 ; 
一 条 记录 记载 一 项 发 明 ; 人工 标 引 以 确保 检索 更 一 致 性 和 精确 性 ; 用 有 限 文字 完整 覆盖 专 
利 重要 信息 点 ;收录 全 球 48 个 主要 专利 授权 机 构 的 专利 文档 ,包括 2510 万 件 发 明 ( 同 族 ); 
用 一 个 简单 且 结 构 化 的 记录 来 表述 专利 说 明 书 中 所 有 重要 信息 (To present all the 
significant information from a patent specification in a single highly structured record) 。 

图 12-40 简洁 地 表明 了 DII 专利 索引 的 特点 : 地 域 涵盖 面 广 、 内 容 描 述 简 洁 、 人 工 信 
息 标 引 准 确 ,分 类 清晰 、 结 构 简 单 。 

2) 同族 专利 

同族 专利 是 基于 同一 优先 权 文 件 , 在 不 同 国家 或 地 区 以 及 地 区 间 专 利 组 织 多 次 申请 、 
多 次 公布 或 批准 的 内 容 相同 或 基本 相同 的 “一 组 专利 文献 ”, 也 就 是 同样 内 容 的 专利 ,在 不 
同 国家 申请 (同一 专利 内 容 与 名 称 需要 在 不 同 国家 申请 并 获得 各 自 国家 的 专利 保护 需要 ) 
所 构成 的 同一 专利 族 类 。 

例如 ,检索 美国 的 无 效 专 利 的 同族 专利 ( 指 已 被 专利 局 授权 或 公布 的 专利 ,经 过 一 定 
的 法 律 进程 ,失去 专利 权 保护 或 自始至终 未 获得 专利 权 的 保护 )US7097696B2( 一 种 带 有 
油分 离 和 易 更 换 阀 的 双 简 空气 干燥 器 ) 。 见 图 12-41 一 图 12-43 。 
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Structure 
1 发 明 1 记录 单一 语言 (English 
DWPI 同族 DWPI 标题 
(非常 规 同族 ) DWPI 摘 要 
Classification 
Indexing Data Cleaning 
专利 权 人 代码 
DWPIManual Codes 人 
CPI 深度 标 引 


图 12-40 DII 专 利索 引 的 特点 


视图 : US7097696B2 
加 
展开 施 引 专利 (10) 
| 一 j 折 又 引用 的 专利 (14) 作为 检索 结果 查看 
[ | 相 
公开 号 公开 日 申请 日 发 明 人 。 DWPI 专利 权 人 /申请 DWPI 关 来 源 出 版 物 
| 用 Dwpi ， | 标题 | 和 
Dual compressed air filter assembly for e.g. diesel | 
园 Usy10g6174 FE 人 V 人 CORP locomotives which is valued etc. to avoid loss of input - [os 
| ， | sa | es _compressed air during switching from filter to purge 
回 air System industrial and ve es 
1995- 1993- ELAMIN N includes air drying subsystem which can 1 
J55378266A [01-03 08-02 A ALHED SIGNAL INC configured either for intermittent mode or continuous ” (Applicant) 
flow mode. 
回 Two=stage pp Ne i se 
1987- 1986- FRANTZV compressed gas by coal ing loose oil water in 人 
54692175A 09-08 03-17 上 ROANOKE COLLEGE first coalescer and then aerosol in second combined |(Applicant) 
coalescer 


图 12-41 DII 专利 检索 实例 图 (US7097696B2) 


第 12 章 特种 信息 资源 检索 / 449 


记录 视图 : US7097696B2 


DPCI 引用 ? 局 族 专 乔 多 到 
| 出 展 f ppct 施 引 专利 (15) 


回 折 委 bpcr 引用 的 专利 (23) WPL 后 上 志和 
人 AS 各 | 公开 日期 | 申请 日 期 [Dwr 同 阁 专利 成 员 相关 性 来 源 
回 vssz28049261 1996-269774 2001-08-28 1995-12-06 CN1921924B 2 0 (Examinen | 
DWPI 标题 : Flange for device for removing oil aerosols from air has rubber- KR1128881B1 = 0 (Examiner) 
coated metal plate which forms real between housing and fixing plate Us709769662 |- 0 (Examiner) | 
DWPI 专利 权 人 /申请 人 : FILTERWERK MANN & HUMMEL GMBH (FILW-C) 图 WO2005091783A2 A 0 (Examiner) | 


DWPI 发 明 人 : BINDER W 图 ; kELLERL 图 ; wour M 图 


回 uss692175A 1987-270864 1987-09-08 |1986-03-17 US7097696B2 |- 0 (Examiner) 
DWPI 标题 : Two=stage pre-coalescer unit for contaminated compressed gas by 
coalescing loose oil and water in first coalescer and then aerosol in second 
combined coalescer 

DWPI 专利 权 人 /申请 人 : ROANOKE COLLEGE (ROAN-N) 国 


|DWPI 发 明 人 : FRANTZVL 图 


图 12-42 DII US7097696B2 同族 专利 检索 实例 图 


le | 1999-264222 | 1999-10-05 1998-02.02 Epl718392h2 v 
DWPI 标 是 Twin tower air dryer for deaning and drying unpurified pressurised gas has manifold block to which separator © US709769682 | = - 
and sump are mounted on one side and pair of desiccant containing canisters are mounted on other | 
DWPI 专 和 人 /申请 人 : UOP INC (UNVO-C) 国 ; WESTINGHOUSE AIR BRAKE CO (WESA-C) 图 
DWPI 发 明 人 : DOSSAJL MR @; FOSTER LL 图 ; GLENNTA @; GURvIETCH SV ®); JONES CE 区 KAzAKSN 
Vv ®; McGEE CL 加 RYRIEBD 国 ; shARMA SB @; THoMAS GA 加 


图 12-43 DII US7097696B2 专利 引用 检索 实例 图 


3) DII 专利 检索 视图 

德 温 特 专利 检索 系统 遵循 专业 检索 的 普 适 性 、 用 户 检索 的 简捷 性 与 友好 性 ,分 为 表单 
检索 、 公 开 号 检索 和 专家 检索 几 种 方式 ,实例 如 图 12-44 所 示 。 

2. Espacenet 

Espacenet 是 欧洲 专利 局 (EPO) 的 专利 文献 系统 ,可 以 免费 检索 80 多 个 国家 和 地 区 
的 专利 ,其 中 大 部 分 专利 有 全 文 。 检 索 语 言 可 以 设置 为 英语 、 法 语 或 德语 。 检 索 框 每 次 可 
以 接受 最 多 20 个 检索 词 , 多 个 检索 词 之 间 用 空格 隔 开 ,用 户 可 以 检索 9000 万 项 专利 文 
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专利 检索 
| 表单 检索 | | 公开 检索 | | 专家 检索 | 


保存 Y_1 创建 天 区 | 编 加 集合 | 显示 和 排序 过 项 


国光 皇 检 索 范 围 : 增值 专利 信息 - DWpl 和 DPCl 


加 从 和 检索 条 件 : a 直 娄 折 人 “| ER 多 
施 引 专 利 权 人 代码 - DPCI 加 ? |huaw 浏览 

图 [.……… 景 早 优先 权 年 DiPI 到 ? 从 :[o2 辐 到 :oz 辐 四 

Dm] [ 慨 明 人 DiPI 图 ? [pae7J5 节 | 


清空 所 有 检索 条 件 [添加 检 过 条件 
思 将 这 些 选项 设 为 我 的 默认 值 


图 12-44 DII 用 户 检 索 通用 界面 实例 


献 。 普 通 检索 常常 也 称 为 模糊 检索 、 智 能 检索 , 它 对 于 普通 检索 用 户 而 言 是 简单 高 效 的 ， 
不 需要 清楚 查询 词 的 位 置 是 否 在 标题 摘要 或 正文 内 容 中 ,也 不 需要 清楚 查询 词 是 否 为 关 
键 词 .主题 词 等 属性 ,但 是 检索 结果 的 准确 度 不 高 ,用 户 对 检索 结果 的 筛选 与 判别 的 难度 
和 工作 量 都 比较 高 。 普 通 检索 界面 如 图 12-45 所 示 , 每 次 查询 时 ,最 多 可 以 使 用 的 检索 词 
数量 为 20( 分 类 目录 库 的 最 大 检索 词 为 10 个 ), 但 是 各 个 检索 词 之 间 需 要 一 个 空格 符 或 
者 逻辑 与 .或 非 运 算 符 (检索 算 子 ) 进 行 分 隔 。 


Espacenet Me 
en pes 
Change country 


Espacenet: free access to the database of over 90 million patents 


Advanced search (| Siemens EP 2007 
Classilcatlon searcn 


Ee Enter your search terms 

nw You can emer up to 20 search terms (a Clear [Search 
Espacenet outages 加 maximum of ten lerms per searchable 

Time zone: CET Donn et 

Mon-Sun 05.00-ca 05.30 Common Citat identfiers They shoud be separated bya ns in one placel 

Outage possible Sunday the 2oth of or operator For more informaton see 中 

May from 5:30-7:30 十 IEad more, You access CCD Pourbelp es family sections or Espacenet or throuan ne omicial P5 website lt gves you 


图 12-45 ”Espacenet 专利 检索 系统 一 一 普通 检索 界面 
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除了 智能 检索 (或 普通 检索 ) 之 外 ,Espacenet 专利 系统 也 提供 高 级 检索 功能 ,这 对 于 
熟练 用 户 或 专业 人 员 而 言 是 非常 重要 的 ,能 够 大 大 提高 专利 检索 的 查 准 率 。 总 体 上 ， 
Espacenet 高 级 检索 包括 了 范围 选择 .专利 题目 摘要、 专利 公开 号 .专利 申请 号 .专利 日 
期 .专利 权 人 等 十 多 项 高 级 组 配 检索 功能 ,实例 图 如 图 12-46 所 示 。 


Espacenet es 
Patent search DR 


Smart search Advanced search 
Classification search 


Ovick help 一 


» 1 


How many search terms can! 
enter per field? 

~* How do | enter words from the 
可 


title or abstract? Te: 国 plastic and bicycle 
+ How do lenter words fom the 
descnplon or clams? 
+ Can | use truncation/Wwildcards? 
+ How do | enter publicabon, Te orabstact 国 hair 
applcaton pnonty and NPL 
reference numbers? 
|* How do | enter the names of 
Persons and organisations? 
|» Whatus the diference between Enter numbers with or without country code 
thelPC and the CPC? 
局 E Publication number 国 WO2008014520 
publication date? 
~* How do | enter a date range for a 
publication date searsh? 
四 了 Application number 国 DE19971031696 
Related finks 本 
Proriy number 加 WO1995US15925 


Enter one or more dates or date ranges 
Publication date” 国 2014-12-31 or 20141231 


Enter name of one or more persons/organisations 
Applicant(s): 加 Institut Pasteur 


图 12-46 Espacenet 专利 检索 系统 一 一 高 级 检索 界面 


3. USPTO Patent Full-Text and Image Database 

USPTO 即 美国 专利 与 商标 局 (United States Patent and Trademark Office) 的 简称 ， 
美国 专 商 局 在 促进 有 效 与 均衡 的 全 球 知识 产权 保护 方面 一 直 处 于 领先 地 位 。 美 国 专 商 局 
的 任务 : 利用 其 能 力 强 、 多 元 化 的 人 才 队 伍 , 通 过 提供 及 时 、 高 质量 的 专利 与 商标 审查 、 指 
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导 国 内 与 国际 知识 产权 政策 .向 全 球 提供 知识 产权 信息 和 教育 等 工作 ,在 本 国 和 世界 范围 
内 促进 创新 、 竞 争 力 和 经 济 增长 。 在 系统 中 可 以 检索 1790 年 以 来 的 所 有 美国 专利 ,可 以 
在 线 浏览 全 文 (tif 文件 ) ,但 需要 下 载 浏览 器 alternatiff。 

USPTO 专利 快速 检索 主要 容纳 两 个 检索 词 ,以 及 确定 检索 词 的 范围 关系 (包括 专利 
名 称 、 摘 要 、 申 请 系列 号 .分 类 号 专利 权 人 、 发 明 人 ,申请 国 别 等 近 30 项 范围 限定 )。 其 检 
索 界 面 见 图 12-47。 


US PA FU ANDIT GE DATAI 


Data current through July 5, 2016.. 


Query [Help] 

Teml:[ |in Field 1: [al Fields 四 
ES 

Term 2: in Field 2: [All Fields Vv 

Select years [Help] 

1976 to present [full-text] v 


图 12-47 USPTO 专利 快速 检索 界面 
USPTO 专利 高 级 检索 主要 是 专利 的 限定 与 逻辑 组 合 检索 ,例如 ,ttl/(tennis and 
(racquet or racket) ) ,isd/1/8/2002 and motorcycle,in/newmar-julie。 其 检索 界面 见 图 12-48。 


S ATENT AND IMAG TABAS 


Data current through July 5, 2016.. 


Query [Help] 
Examples: 
人 ttl/ (temmis and (racquet or racket)) 
v isd/1/8/2002 and motorcycle 
in/newmar-julie 
Select Years [Help] 


1976 to present [full-text] v 


图 12-48 USPTO 专利 高 级 检索 界面 


4. PATENTSCOPE 
世界 知识 产权 组 织 (WIPO) 是 关于 知识 产权 服务 、 政 策 、 合 作 与 信息 的 全 球 组 织 , 是 


第 12 章 特种 信息 资源 检索 / 453 


一 个 自 筹资 金 的 联合 国 机 构 , 有 188 个 成 员 国 , 其 使 命 是 领导 发 展 兼 顾 各 方 利 益 的 有 效 国 
际 知识 产权 制度 ,让 创新 和 创造 惠及 每 个 人 。 该 组 织 的 任务 、 领 导 机 构 和 工作 程序 载 于 
《WIPO 公约 》。 

PATENTSCOPE 世界 知识 产权 组 织 的 免费 专利 数据 库 (https://patentscope. wipo. 
int) ,包括 多 语言 检索 界面 ,系统 包括 290 万 国际 专利 申请 (PCT) 和 5700 万 地 区 及 国家 汇 
编 专 利文 献 。 该 数据 库 提供 四 种 专利 检索 方式 : 简单 检索 (simple search)、 高 级 检索 
(advanced search) ,字段 组 合 检 索 (structured search) ,多 语种 交叉 扩展 检索 (cross lingual 
expansion search) ,还 可 以 浏览 每 周公 布 的 专利 文献 等 检索 ,大 部 分 专利 有 全 文 内 容 。 
PATENTSCOPE 的 中 文 检索 界面 见 图 12-49。 


三 Monne | Deutsch | Engish | Espafil | Franrais | 是 | 可 | Poruouas | Pyocei [ea 


WiPO 生 PATENTSCOPE 


2 检索 国家 专 


城 @ 合 有 (PCT) 中 和 57 milion 收录 的 地 区 及 国家 汇编 专利 文件 中 检索 关于 数据 三 基 的 详细 信息 可 以 在 这 里 找到 >) 
中 语种 扩张 
首页 立 OS 


全 PCT 公 布 27/2016 (2016/07/07) 现 已 完成 。 接 下 来 的 国际 公布 日 期 玄 排 如 下 ; 公报 号 28/2016 (2016/07/14)。 More 


图 12-49 PATENTSCOPE 的 中 文 检索 界面 


5. 日 本 专利 查询 一 一 特许 .实用 新 案 公 报 专 利 数 据 库 

该 数据 库 可 以 检索 日 本 专利 ,并 可 看 到 部 分 日 本 专利 说 明 书 全 文 。 

6. 加 拿 大 知识 产权 局 专利 数据 库 

加 拿 大 知识 产权 局 专利 数据 库 (Canadian Intellectual Property Office Canadian 
Patents Database) 可 以 检索 加 拿 大 专利 (http://www.ic. gc. ca/opic-cipo/cpd/eng) ,检索 
方式 有 基本 检索 (basic search)、 代 码 检 索 ( 专 利 号 检索 , number search) .布尔 检索 
(boolean search) 和 高 级 检索 (advanced search)。 加 拿 大 专利 数据 库 布尔 检索 界面 实例 见 
图 12-50。 

图 12-50 中 表明 对 专利 检索 词 或 检索 短语 进行 布尔 组 合 检索 时 ,可 以 对 检索 词 布尔 
算 子 .文本 域 进行 交互 控制 ,同时 也 可 以 对 专利 文献 的 状态 .文献 类 别 以 及 专利 的 各 种 日 
期 数据 (申请 日 .公开 日 等 ) 进 行 交互 操作 。 
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Canadian Intellectual Property Office Canad? 


Trademarks Patents Copyright ( Industrial designs Foragents For business NewtoIP Search 


Home 3 Ca 


patent Database ? Boclean Search 3 Bcolean Search 


Boolean Search 


Type the words or phrases you want to search in one or al text entry areas. Select the patent fields to be searched with the selector to 


Green Technologies the right of each entry area. When using more than one area, choose the logical cperator (AND or ORJ. You can get the text fleld 
Search Options definitions. 


Basic Search 


for the latest updated information of the database, sse Currency of information 


Number Search 


Search Criteria 


Text Field; Dperator Word(s) or Phrase(s): 
Any Text Field v| 


contains 可 


General Content 


FAQ 
Disclaimer 


Status of Patent Document: All 


Type of patent Document Filing: | AI Documents 加 


CC With Uicence Available Only 


v Date Search 


To restrict your search to 3 spedfic date range, you must select a date field below, For the date search covarage see 
Sompleteness of date fislds 


Find patents with ， Date Soarch not active 名 | 
berween (YYYY-MM-DD) 图 
and (YYYY-MM-DD) [4 


ED ES 
图 12-50 ”加拿大 专利 数据 库 布尔 检索 界面 实例 


7. LexisNexis 

LexisNexis 是 世界 著名 的 数据 库 , 全 球 许多 著名 法 学 院 、 法 律 事务 所 、 高 科技 公司 的 
法 务 部 门 都 在 使 用 该 数据 库 。 该 数据 库 连接 至 40 亿 个 文件 .11 439 个 数据 库 以 及 36 000 个 
来 源 , 资 料 每 日 更 新 。 其 中 的 专利 数据 库 收录 1980 年 以 来 的 欧 、 美 .日 的 专利 全 文 ,也 包 
括 关 于 专利 法 律 研 究 的 信息 内 容 , 通 过 其 中 Patent Law 专栏 中 的 Patent 数据 库 , 可 以 检 
索 并 在 线 浏览 专利 全 文 ,包括 美国 专利 欧洲 专利 .英国 专利 .世界 专 利 、 日 本 专利 和 通过 
PCT 申请 的 专利 。 数 据 库 以 分 类 浏览 的 方式 , 单 击 具 体 的 类 目 进 行 查看 ,里 面包 含 一 些 
图 标 代表 着 不 同 的 含义 。 

美国 LEXIS-NEXIS 公司 创始 于 1973 年 ,其 数据 库 内 容 涉 及 新 闻 、 法 律 、 政 府 出 版 
物 、 商 业 信 息 及 社会 信息 等 ,其 中 法 规 法 律 方 面 的 数据 库 是 LEXIS-NEXIS 的 特色 信息 
源 , 具 有 非常 大 的 影响 力 ,尤其 在 法 律 业界 具有 很 高 知名 度 。LexisNexis Academic 是 
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Lexis-Nexis 数据 库 产品 中 ,面向 大 学 和 学 术 研 究 设 计 的 数据 库 。 共 选 自 5300 种 出 版 物 
的 内 容 , 主 要 包括 以 下 几 个 方面 的 主题 : 综合 性 新 闻 ; 公 司 商业 信息 ;政府 规章 、 政 治 新 
闻 法律 研究 ;医学 ,保健 信息 ;参考 性 资料 数据 库 。 

LexisNexis 系统 的 一 般 检索 可 以 输入 关键 词 . 标 题 , 作 者 或 ISBN 号 进行 模糊 查询 。 
其 检索 界面 见 图 12-51。 


Sorn io ore Accourt” | Regsier | Cusioner sevee | ] 回 | reeoverd 
. bee E NEED HELP? 
人 LexisNexis: Store [seorch eimaiocs our asm CU 有 。=wrawone 
Support 800.893.9844 
shorey practice Area ” Jurisdiction * Products * Law School ” Law Enforcement " 国 anrloiens) 8 
Home » Shop by Practice Area > Intallectual Property Law 


图 12-51 LexisNexis 系统 的 一 般 检 索 界面 


12.4.6 国内 专利 资源 数据 库 系 统 检 索 

1. 国家 知识 产权 局 专利 检索 

(1) 概述 。 国 家 知识 产权 局 (State Intellectual Property Office)1980 年 经 国务 院 批 
准 成 立 中 国 专 利 局 ,1998 年 更 名 为 国家 知识 产权 局 ,国家 知识 产权 局 对 专利 申请 的 受理 、 
审查 复审、 授权 以 及 对 无 效 宣 告 请 求 的 审查 业务 委托 国家 知识 产权 局 专利 局 承担 。 

(2) 检索 功能 与 专利 信息 范围 。 检 索 功 能 包括 常规 检索 .表格 检索 药物 专题 检索 、 
检索 历史 、 检 索 结 果 浏 览 .文献 浏览 .批量 下 载 等 。 分 析 功 能 : 快速 分 析 、 定 制 分 析 、 高 级 
分 析 、 生 成 分 析 报 告 等 。 专 利 数据 范围 : 收录 了 103 个 国家 、 地 区 和 组 织 的 专利 数据 以 及 
引文 .同族 ,法 律 状态 等 数据 信息 ,其 中 涵盖 了 中 国 、 美 国 、 英 国法 国 、 德 国 、 俄 罗斯 、 欧 洲 
专利 局 和 世界 知识 产权 组 织 等 专利 数据 资源 。 

(3) 一 般 检 索 。 一 般 检 索 通 过 自动 识别 、 检 索要 素 、. 申 请 号 .申请 人 和 发 明 人 等 开展 
快速 检索 。 其 检索 界面 见 图 12-52。 


人 坟 =mmm， 


检索 


图 自动 识别 〇 检索 要 素 〇 申请 号 D 公 开 〈 公 告 ) 号 〇 申请 〈 专 利 权 ) 人 〇 发 明 人 〇 发 明 名 称 


图 12-52 国家 知识 产权 局 专利 检索 系统 的 一 般 检 索 界面 
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自动 识别 : 即 自动 识别 逻辑 检索 ,检索 词 之 间 分 隔 符 、. 时 间 格 式 . 小 括号 与 双 引 号 等 
自动 识别 。 见 图 12-53 。 


fF 
了 


4 


自动 识别 


图 自动 识别 1、 支持 二 目 逻辑 运算 符 AND、OR。 


2 
3. 


。 日 期 支持 间隔 符 一 、… ”， 


支持 半角 0 算 符 ， 如 输入 国产 (智能 手机 )， 


多 个 检索 词 之 间 用 空格 间隔 , 如， 智能 手机 。 

系统 默认 二 目 逻 辑 运算 符 是 AND, 如 输入 若 能 手机 ， 系 统 按 
照 镶 能 AND 手机 进行 检索 。 

支持 如 下 格式 ，YYYY-J0DD、 
YYYY. ML. DD、YYTYYTODD、YYYYO[、YYYY。 

系统 优先 执行 


智能 AND 手机 ， 然 后 将 所 得 结果 集 与 国产 进行 AND 运 算 。 
。 如 果 检 索 条 件 中 包含 空 格 、 保 留 关 键 字 或 运算 符 ， 需 使 用 半 
角 双 引号 ， 如 ， “WILLIAMS AND LANE INC”。 


图 12-53 国家 专利 局 专利 系统 “自动 识别 的 检索 含义 ” 


检索 要 素 : 在 专利 标题 ,专利 摘要 、 权 利 要 求 和 分 类 号 中 同时 检索 ,也 可 以 加 双 引 号 


查询 。 见 图 12-54。 


12-54 


加 自动 识别 @ 检 索要 素 ， 


检索 要 素 


1 在 标题 、 摘 要 、 权 利 要 求 和 分 类 号 中 同时 检索 。 

2 支持 二 目 远 辑 运 算 符 and、or、not。 

3， 如 果 输 入 有 空格 ， 则 需 加 英文 双 引 号 ， 如 "沈阳 中 国 石 
油 ”， 否 则 系统 将 按照 沈阳 OR 中 国 石油 检索 。 

如 果 输 入 保留 关键 字 (运算 符 ) ， 需 要 在 保留 关键 宇 两 边 加 英 
文 的 双 引 号 。 例 如 沈阳 “and” 中 国 石油 、“ (沈阳 ) “。 


国家 专利 局 专利 系统 “检索 要 素 的 检索 含义 ” 
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申请 号 : 申请 号 的 检索 含义 包括 申请 号 格式 应 用 、 自 动 去 掉 校 验 位 支持 模糊 匹配 和 
截 词 符 等 。 见 图 12-55。 


四 申请 号 | 申请 号 


1。 申 请 号 格式 : 文献 的 申请 国 + 申 请 流水 号 。 例 0: 
CN123456789。 

2， 自 动 去 掉 校 验 位 ， 如 果 输 入 CN12345678.9， 系 统 会 按照 
CN12345678 进 行 检索 。 

3， 输 入 ZL123456789, 系统 会 按照 CN123456789 进 行 检索 。 

支持 模糊 匹配 ， 如 果 给 入 12545, 系统 会 按照 C812345 OR 

单位: 国家 123456789 进 行 检索 。 

几 磁 : 京 IcP 5 输入 CN123456789 CN987654321， 系统 会 按照 CN123456789 

OR CN987654321 进 行 检索 。 

6。， 支 持 截 词 年 -、?、#。~*: 任意 长 度 的 字符 串 ; ?: 一 个 或 没 

有 字符 ; #: 一 个 强制 存在 的 字符 。 所 有 截 词 符 均 为 半角 字 


人 


符 。 


图 12-55 国家 专利 局 专利 系统 “申请 号 的 检索 含义 ” 


(4) 表 格 检索 。 以 表格 的 形式 将 专利 检索 项 进行 排列 ,便于 用 户 进 行 精确 匹配 检索 ， 
同时 支持 命令 编辑 和 复杂 检索 式 的 逻辑 构造 。 例 如 "摘要 = (computer)or 申请 日 = 
20151013 :20160723”, 在 本 系统 中 ,表格 式 检索 的 含义 与 作用 等 同 于 高 级 检索 或 专业 检 
索 。 表 格式 检索 界面 见 图 12-56 。 

2. 中 国 专利 信息 中 心 专利 之 星 检索 系统 

中 国 专利 信息 中 心 成 立 于 1988 年 ,是 国家 知识 产权 局 直属 事业 单位 国家 级 大 型 专利 
信息 服务 机 构 , 拥 有 国家 知识 产权 局 赋予 的 专利 数据 库 管理 权 、 使 用 权 和 综合 服务 经 营 权 。 
拥有 完整 稳定 的 专利 数据 资源 .多 功能 综合 性 专利 检索 系统 .企业 创新 专家 支持 平台 ,承接 
政府 、 机 构 、 企 业 . 公 众 等 的 专利 数据 处 理 .数据 提供 、 检 索 咨询 .定制 化 开发 等 业务 。 

(1) 表格 检索 ,提供 各 个 专利 项 精确 匹配 的 检索 交互 界面 ,包括 命令 行 检索 (以 命令 
行 构造 用 户 需 要 的 复杂 逻辑 检索 表达 式 ) 。 见 图 12-57 。 
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申请 号 2 申请 日 于 公开 (公告 ) 号 加 
公开 (公告 ) 日 E_ 发 明 名 称 JP( 分 类 号 2 
申请 (专利 权 ) 人 发 明 人 优先 权 号 sp 
优先 权 日 一 二 要 权利 要 求 
说 明 书 关键 记 代理 人 
代理 机 构 
生成 检索 忒 
市 3 区 ED RD Ei RCR 二 衬 检索 


图 12-56 国家 专利 局 专利 系统 表格 式 检索 界面 


i 


» ace 加 酒 园 


分 天 号 航 。 专利 六 车 。 专题 由 据 库 。 企业 在 线 。 机 器 翻译 


图 中 国 专利 口 世界 专利 ”配置 表格 项 


发 明 名 称 (TD 时 摘要 (AB) 是 
主权 利 要 求 (CU) 时 关键 词 (TX): ¥ 
申请 人 (PA) | 分 类 号 (IC) 
申请 号 (AN) ‘ 申请 日 (AD) 四 
公开 号 (PN) Y 公开 日 CD) 量 
公告 号 (GN) 四 公告 日 (GD) 
优先 权 号 (PR) 日 发明 人 GCN) 
区 时 分 类 (CT 四 申请 人 地 址 (DZJ: YY 
国 省 代 #3(CO》 站 代理 机 构 (AG) v 
主 分 类 号 MC) 日 代理 人 (AT 四 
权利 要 求 (CS) “ 说 明 书 (DS) 上 


命令 行 检索 [示例 -计算 机 TAOIBAC] 


本本 


图 12-57 中国 专 利之 星 检索 系统 的 表格 式 实例 


第 12 章 特种 信息 资源 检索 / 459 


(2) 专家 检索 ,提供 专业 性 强 、 检 索 精 度 高 的 专利 检索 服务 。 见 图 12-58。 


图 中 国 专利 〇 世界 专利 


申请 号 CAN) | | 口 查看 。 (687) ”2016-06-02 10:28:32 ”下 TX 硬 泡 <hits:915》 
申请 日 (AD) 
公开 号 (PN) 
公开 日 (PD) 
公告 号 (GN) 
公告 日 (GD) 
分 类 号 (IC) 
主 分 类 号 (MC) 
范畴 分 类 (CT) 
优先 权 号 (PR) 
国 省 代码 (CO) 
发 明 人 (IN) 
申请 人 (PA) 
关键 词 (TX) 
发 明 名 称 (TD 
代理 机 构 代码 (AG) 
代理 人 (AT) 
申请 人 地 址 [DZ) 
摘要 (AB) ] 
友和 cD) Dl ie 
权利 要 求 (CS) 
说 明 书 (DS) 


图 12-58 中 国 专利 之 星 检索 系统 的 专家 检索 模块 界面 


(3) 专利 之 星 主要 检索 模块 ,包括 智能 检索 .表格 检索 .专家 检索 和 法 律 状态 检索 四 
大 类 检索 ,以 及 分 类 导航 、 专 利 预警 .专题 数据 库 和 中 外 专利 文献 的 机 器 翻译 等 辅助 检索 
功能 ,可 检索 中 国 专利 和 世界 专利 ,并 可 下 载 PDF 全 文 ,部 分 功能 注册 后 才 可 使 用 。 见 
图 12-59 。 


智能 检索 | 表格 检索 | 专家 检索 | 法 律 状态 检索 


全 sameaan 加 图 图 


~ 5 


分 类 导航 。 专利 预警 专题 数据 库 ”企业 在 线 ”机 器 翻译 


图 12-59 中 国 专利 之 星 检索 系统 的 主要 检索 功能 模块 


3. 万 方 中 外 专利 数据 库 
万 方 中 外 专利 数据 库 (wanfang patent database, WFPD) ,收录 始 于 1985 年 ,4500 余 
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万 项 中 外 专利 ,年 增 25 万 条 。 

万 方 中 外 专利 数据 库 的 专门 检索 工具 为 PATENTOOL ,专利 文献 来 源 于 11 国 ( 中 
国 、 美 国 . 澳 大 利 亚 、 加 拿 大 瑞士. 德国 .法国 、 英 国 、 日 本 、 韩 国 、 俄 罗斯 ) 和 两 组 织 ( 世 界 专 
利 组 织 、 欧 洲 专利 局 )。 一 般 检索 首先 在 选择 专利 类 型 (全 部 类 型 ,发 明 专利 .实用 新 型 和 
外 观 设计 ) 的 基础 上 ,输入 检索 的 关键 词 即 可 。 其 一 般 检 索 界 面 见 图 12-60。 为 了 提高 检 
索 结果 的 准确 率 , 使 用 其 高 级 检索 是 明智 的 。 


国 专利 文献 :三 IPC 分 类 


全 部 类 型 【 CO 总 妆 此 雪 
全 部 类 型 
发 明 专利 
实用 新 型 
外 观 设计 


图 12-60 万 方 中 外 专利 数据 库 “ 一 般 检索 界面 ” 


高 级 检索 可 以 细 化 专利 检索 内 容 项 ,包括 申请 号 、 公 开 号 、 名 称 、 摘 要 、 申 请 日 .公开 日 
等 十 多 项 的 逻辑 组 合 , 以 提高 查 准 率 。 高 级 检索 界面 见 图 12-61。 

4， Patent Cloud( 专 利 云 检索 网 ) 

Patent Cloud 是 由 富士 康 公 司 开发 的 专利 文献 资源 检索 系统 ,Patent Cloud 包含 中 国 
大 陆 、. 中 国 台湾 .美国 .韩国 .日 本 `WO、 欧 洲 专利 信息 , 累计 4700 万 篇 专利 。Patent 
Cloud 支持 简体 中 文 .繁体 中 文 .英文 等 多 种 语言 版 本 ,可 以 提供 专利 家 族 信息 、 引 证 信息 
等 ,保存 PDF 格式 全 文 。 

(1) 检索 语法 详 见 相关 参照 ,其 中 词组 (或 两 词 ) 如 未 加 双 引 号 ,系统 默认 两 词 之 间 人 好 
辑 关 系 为 “or”。 

(2) 美国 .中 国 台湾 专利 可 以 进行 全 文 检 索 。 

(3) 支持 正 9. 0 以 上 版 本 ,支持 Google 浏览 器 及 其 他 浏览 器 。 

(4) 多 元 检索 方式 快速 查询 专利 资料 ,并 能 实时 产生 分 析 报 表 , 让 用 户 实时 精准 探索 
专利 大 数据 ,同时 辅 以 多 种 实用 工具 ,提供 用 户 专 属 的 线 上 专利 工作 平台 。 
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图 12-61 万 方 中 外 专利 数据 库 “高 级 检索 界面 ” 


(5) 同步 显示 两 篇 专利 全 文 , 帮 助 用户 比较 内 容 异 同 。 

5. 中国 专 利 / 海 外 专利 全 文 数据 库 ( 知 网 版 ) 

《中 国 专利 全 文 数据 库 ( 知 网 版 )) 包 含 发 明 专利 、 实 用 新 型 专利 、 外 观 设计 专利 三 个 子 
库 ,准确 地 反映 了 中 国 最 新 的 专利 发 明 。 专 利 相关 的 文献 .成果 等 信息 来 源 于 CNKI 各 大 
数据 库 , 可 以 通过 申请 号 、 申 请 日 .公开 号 、 公 开 日 、 专 利 名 称 、 摘 要 、 分 类 号 、 申 请 人 、 发 明 
人 ,优先 权 等 检索 项 进行 检索 ,并 一 次 性 下 载 专利 说 明 书 全 文 。 按 照 专 利 种 类 分 为 发 明 专 
利 、 外 观 设计 和 实用 新 型 三 个 类 型 ,其 中 发 明 专 利和 实用 新 型 采用 国际 专利 分 类 法 (IPC 
分 类 ) 和 CNKI 168 学 科 分 类 ,外 观 设计 采用 国际 外 观 设计 分 类 和 CNKI 168 学 科 分 类 。 
收录 从 1985 年 至 今 的 中 国 专 利 。 截 止 到 2016 年 5 月 《中 国 专利 全 文 数 据 库 ?共计 收 录 
专利 1000 多 万 条 。 

与 通常 的 专利 数据 库 相 比 《中 国 专利 全 文 数据 库 》( 知 网 版 ) 每 条 专利 的 知 网 节 集 成 
了 与 该 专利 相关 的 最 新 文献 .科技 成 果 、 标 准 等 信息 ,可 以 完整 地 展现 该 专利 产生 的 背景 、 
最 新 发 展 动态 、 相 关 领 域 的 发 展 趋势 ,可 以 浏览 发 明 人 与 发 明 机 构 更 多 的 论述 以 及 在 各 种 
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出 版 物 上 发 表 的 文献 。 
在 用 户 检索 方面 ,有 初级 检索 、 高 级 检索 和 专业 检索 三 种 ,图 12-62 是 高 级 检索 界面 
实例 。 
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分 类 号、 申请 人 ”这 习 人 、 优 交 权 等 愉 雪 顶 行 性 索 ， 关 一 次 性 下 载 便利 说 科 书 全 文 ， 


图 12-62 中国 知 网 中 国 专利 数据 库 “ 高 级 检索 界面 ” 


12.5 标准 信息 资源 检索 


12.5.1 标准 信息 资源 的 概念 与 特点 

狭义 的 标准 信息 资源 是 指 按 规定 程序 制定 ,经 公认 权威 机 构 或 主管 机 关 批 准 的 一 整 
套 在 特定 领域 内 必须 执行 的 规格 、 规 则 、 技 术 要 求 等 规范 性 文献 资料 ,简称 标准 。 标 准 是 
大 学 生 获取 的 一 种 重要 学 习 与 参考 资源 类 型 。 广 义 的 标准 指 与 标准 化 工作 有 关 的 一 切 信 
息 资 源 ,包括 标准 形成 过 程 中 的 各 种 档案 、 宣 传 推广 标准 的 手册 及 其 出 版 物 、 揭 示 报 道 标 
准 文献 信息 的 目录 、 索 引 等 。 国 外 标准 信息 资源 经 常 使 用 的 名 称 有 标准 (standard) 、 规 格 
(specification) ,公报 (bulletin) 、 建 议 (recommendation) ,法 规 (code) .手册 (Chandbook) 、 规 
则 (rules instruction) 和 工艺 (practice) 等 。 在 公元 前 1500 年 的 古 埃及 纸 草 文献 中 即 有 关 
于 医药 处 方 计量 方法 的 标准 ,是 现在 最 早 的 标准 。 通 常 认为 ,现代 标准 文献 资源 产生 于 
20 世纪 初 。1901 年 英国 成 立 了 第 1 个 全 国 性 标准 机 构 , 同 年 世界 上 第 1 批 国家 标准 问 
世 。 此 后 许多 发 达 国 家 相继 建立 全 国 性 标准 化 机 构 出 版 各 自 的 标准 ,其 中 影响 较 大 的 有 
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美英 、 德 法、 日 、 俄 等 国家 。1906 年 成 立 的 国际 电工 委员 会 (International 
Electrotechnical Commission,IEC) 和 1947 年 2 月 成 立 的 国际 标准 化 组 织 (International 
Organization for Standardization,ISO) 是 两 个 最 重要 的 国际 标准 机 构 (1947 年 将 IEO 并 
入 ISC, 但 在 技术 .财政 .名称 及 工作 程序 上 仍 保持 独立 性 )。 随 着 标准 化 事业 的 发 展 , 标 
准 文献 资源 也 急骤 增长 。 志 界 各 国 的 各 类 标准 文献 连同 相关 的 会 议 文件 ,技术 报告 等 , 数 
量 更 是 高 达 数 千 种 。1956 年 ,我 国 设 立国 家 标准 局 ,1957 年 8 月 加 入 IEC, 并 颁布 了 
第 1 批 国家 标准 。1978 年 5 月 成 立国 家 标准 总 局 ,1988 年 我 国 组 建国 家 技术 监督 局 。 
1989 年 4 月 1 日 (中 华人 民 共 和 国标 准 化 法 ) 实 施 。 

标准 按 使 用 范围 划分 有 国际 标准 、 区 域 标准 、 国 家 标准 、 专 业 标准 、 地 方 标准 、 企 业 标 
准 ; 按 内 容 划 分 有 基础 标准 (一 般 包 括 名 词 术语 、 符 号 代号、 机 械 制图 、 公 差 与 配合 等 )、 产 
品 标准 、 辅 助 产品 标准 (工具 、 模 具 、 量 具 、 夹 具 等 )、 原 材料 标准 、 方 法 标准 (包括 工艺 要 求 、 
过 程 、 要 素 、 工 艺 说 明 等 ); 按 成 熟 程度 划分 有 法 定 标准 、 推 荐 标准 \、 试 行 标准 、 标 准 草案 。 
国际 标准 由 国际 标准 化 组 织 (ISO) 理 事 会 审查 ,ISO 理事 会 接纳 国际 标准 并 由 中 央 秘 书 处 
颁布 ;国家 标准 在 中 国 由 国务 院 标 准 化 行政 主管 部 门 制定 ,行业 标准 由 国务 院 有 关 行 政 主 
管 部 门 制定 ,企业 生产 的 产品 没有 国家 标准 和 行业 标准 的 ,应 当 制定 企业 标准 ,作为 组 织 
生产 的 依据 ,并 报 有 关 部 门 备案 。 


12.5.2 标准 信息 资源 的 分 类 

1.《 中 国标 准 文献 分 类 法 》 

《中 国标 准 文献 分 类 法 )(Chinese Classification for Standards,CCS) 由 国家 技术 监督 
局 编辑 ,中 国标 准 文献 出 版 社 1989 年 出 版 。《 中 国标 准 文献 分 类 法 》 的 类 目 设置 以 专业 划 
分 为 主 ,适当 结合 科学 分 类 。 序 列 采取 从 总 到 分 ,从 一 般 到 具体 的 逻辑 系统 。 该 分 类 法 采 
用 二 级 分 类 ,一 级 类 目 设置 主要 以 专业 划分 为 主 ,二 级 类 目 设置 采取 非 严格 等 级 制 的 分 类 
方法 。 一 级 分 类 由 24 个 大 类 组 成 ,每 个 大 类 有 100 个 二 级 类 目 ; 一 级 分 类 由 单个 拉丁 字 
母 组 成 ,二 级 分 类 由 双 数 字 组 成 。 

2.《 国 际 标准 分 类 法 》 

《国际 标准 分 类 法 》(International Classification Standards,ICS) 是 由 国际 标准 化 组 织 
1991 年 组 织 编制 的 ,主要 用 于 国际 标准 、 区 域 标准 和 国家 标准 以 及 其 他 标准 文献 的 分 类 。 
国际 标准 分 类 法 的 推广 应 用 ,有 利于 标准 信息 资源 分 类 的 协调 统一 ,促进 国际 间 标 准 文献 
的 交换 与 传播 。ICS 采用 三 级 数字 编号 ,第 1 级 由 41 个 大 类 组 成 ,第 2 级 为 387 个 二 级 
类 ,第 3 级 为 789 个 小 类 。 第 1 级 和 第 3 级 用 双 位 数 表示 ,第 2 级 用 三 位 数 表示 ,各 级 类 
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目 之 间 以 圆 点 相隔 。 如 71. 040. 50 代表 物理 化 学 分 析 方法 。 


12.5.3 美英 等 国标 准 信息 资源 检索 

1. 美国 标准 及 其 检索 

美国 国家 标准 (American National Standards) 创 建 于 1918 年 ,由 美国 国家 标准 学 会 
(American National Standards Institute,ANSI) 负责 制定 。ANSI 标准 采用 字母 与 数字 相 
结合 的 混合 标记 分 类 法 。 用 1 个 字母 标记 1 个 大 类 ,用 数字 表示 大 类 目下 的 小 类 。 
1984 年 前 ,ANSI 共 分 24 个 大 类 ;1985 年 以 后 , 按 ( 美 国 国家 标准 协会 目录 ) 分 为 17 大 类 。 

(1)《 美 国 国家 标准 学 会 目录 》。 该 目录 由 美国 国家 标准 学 会 编辑 出 版 ,每 年 出 版 一 
次 ,是 美国 标准 的 主要 检索 工具 书 。 目 录 中 列举 了 现行 美国 国家 标准 ,内 容 包括 两 个 主要 
部 分 , 即 “ 主 题目 录 ”(listing by subject) 和 “标准 序号 目录 ”(listing by designation) 。 在 各 
条 目下 列 出 标准 主要 内 容 、 标 准 制定 机 构 名 称 代码 和 价格 ,可 以 从 主题 和 序号 途径 查找 美 
国 国家 标准 。 

(2)《 美 国 试验 与 材料 协会 标准 年 鉴 )(American Book of ASTM Standards) 。 该 年 
鉴 由 美国 试验 与 材料 协会 (American Society for Testing and Material,ASTM) 编辑 出 版 ， 
是 查找 该 协会 制定 的 标准 的 主要 检索 工具 ,每 年 出 版 1 次 。 该 年 鉴 分 16 个 部 分 ,66 卷 ， 
按 专 业 分 类 。《ATSM 标准 年 鉴 ) 中 可 供 检索 用 的 主要 有 两 个 栏目 : 一 个 是 主题 索引 
(subject index) ,是 年 鉴 中 综合 主题 索引 ; 另 一 个 是 字母 序号 表 (alphanumeric list) ,在 此 
表 中 , 按 字 母 及 序号 的 次 序列 出 了 全 部 ASTM 现行 标准 和 暂行 标准 。ASTM 系统 
(http://compass. astm. org/) 需 要 注册 后 使 用 。 

(3)《 联 邦 规格 标准 和 商品 说 明 书 索引 》(Index Federal Specification, Standard 
Commercial Item Dessification)。 该 索引 由 美国 总 务 管理 局 (General Services Administration) 
编辑 出 版 ,每 年 出 一 版 ,是 查找 美国 联邦 规格 和 标准 的 主要 检索 工具 。 内 容 主 要 有 三 部 
分 :“ 字 顺 一览 表 ”“ 序 号 一 览 表 ”、“ 联 邦 供应 分 类 一 览 表 ”。 可 以 按 字 顺 、 序 号 和 分 类 三 
种 途径 查找 到 该 组 织 制定 的 标准 和 标题 标准 号 码 、 合 格 产 品目 录 、 联 邦 供应 分 类 、 主 编 单 
位 .日 期 和 价格 。 图 12-63 是 “美国 国家 标准 学 会 (American National Standards 
Institute, ANSI, http://webstore. ansi. org/sitelicense. aspx)” 的 一 般 检索 界面 ,输入 需 
要 检索 的 标准 的 关键 词 即 可 。 

美国 ANSI 检索 系统 可 以 选择 需要 检索 的 范围 (例如 ISO 标准 、IEC 标准 等 ) ,查询 时 
可 以 输入 标准 号 和 关键 词 。 见 图 12-64 。 
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图 12-64 美国 ANSI 检索 系统 界面 


2. 日 本 国家 标准 及 其 检索 

日 本 工业 标准 (HS) 由 成 立 于 1949 年 的 日 本 工业 标准 调查 会 (Japanese Industrial 
Standards Committee,JISC) 负 责 制定 。 该 调查 会 下 设 29 个 部 会 ,2000 多 个 专门 委员 会 。 
目前 ,现行 一 万 多 件 标 准 ,每 隔 5 年 审议 1 次 。 日 本 工业 标准 为 国家 级 标准 , 除 药 品 、 食 品 
及 其 他 农林 产品 另行 制定 专门 技术 规范 或 标准 外 ,涉及 各 个 工业 领域 ,内 容 包括 技术 发 明 
及 符号 ,工业 产品 的 形状 .质量 指数 及 性 能 ,试验 .分 析 与 测量 ,设计 .生产 、 使 用 及 包装 运 
输 等 方法 。 检 索 日 本 国家 标准 的 检索 工具 主要 有 以 下 两 种 。 

(1)《 日 本 工业 标准 总 目录 》(HS 总 目录 )。 该 目录 由 日 本 标准 协会 编辑 出 版 ,每 年 出 
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一 版 ,报道 收集 到 当年 3 月 份 为 止 的 全 部 日 本 工业 标准 。 主 要 内 容 分 为 两 部 分 : 第 1 部 
分 是 “JIS 总 目录 ”, 为 专业 分 类 下 的 标准 序号 索引 ;第 2 部 分 为 主题 索引 。 同 时 还 附 有 
ISO 和 IEC 技术 委员 会 的 名 称 表 、 主 要 国外 标准 组 织 一 览 表 及 HS 和 日 本 事业 标准 制定 
单位 一 览 表 等 。 该 目录 提供 有 分 类 途径 和 主题 途径 。 分 类 途径 : 使 用 分 类 目录 查找 , 先 
确定 课题 所 属 的 部 类 和 小 类 ,并 按 所 指 页 次 逐一 查找 , 即 能 获得 所 需 标准 。 主 题 途径 : 索 
引 按 日 文字 母 顺 序列 出 一 级 和 二 级 主题 词 ,并 在 其 后 著录 相关 标准 的 标准 号 。 

(2)《 日 本 工业 标准 年 鉴 )(JIS Yearbook)。 此 年 鉴 系 英文 版 的 日 本 工业 标准 目录 。 
此 外 ,还 有 《标准 化 杂志 》《 日 本 工业 标准 手册 ) 等 多 种 检索 工具 及 相关 网 站 可 以 使 用 。 

3. 德国 国家 标准 及 其 检索 

现行 德国 国家 标准 采用 原 联邦 德国 标准 ,由 德国 标准 学 会 负责 制定 。 该 组 织 成 立 于 
1917 年 ,原名 为 德意志 工业 标准 委员 会 ,1975 年 改 为 现 名 。 联 邦 德国 标准 学 会 是 一 个 注 
册 的 民间 组 织 团体 ,1975 年 与 联邦 德国 政府 签署 协议 ,政府 承认 该 学 会 是 德国 标准 化 主 
管 单 位 ,具有 法 定 资格 ,该 学 会 制定 的 标准 为 联邦 德国 国家 标准 ,目前 该 协会 标准 2 万 件 。 

检索 联邦 德国 标准 的 工具 主要 有 以 下 两 种 。 

(1)《 联 邦 德国 标准 学 会 技术 标准 目录 》。 该 目录 每 年 出 版 1 次 ,报道 到 上 一 年 年 底 
为 止 的 现行 标准 。 内 容 除了 联邦 德国 标准 外 ,还 列 出 联邦 德国 工程 师 协会 .联邦 德国 航空 
标准 组 织 .联邦 德国 国际 防御 装备 标准 组 织 的 标准 。 目 录 内 容 分 为 两 部 分 : 一 部 分 是 “ 国 
际 十 进位 分 委 法 的 主题 集 ” 和 作为 检索 之 用 的 主要 部 分 的 “主题 集 ” ,实质 为 国际 十 进位 分 
类 目录 ; 另 一 部 分 是 “数字 索引 ”、“ 德 文 主题 索引 ”和 “英文 主题 索引 ”(English Index of 
Subject) 。 该 目录 提供 有 分 类 .序号 和 主题 途径 。 

(2)《 联 邦 德国 标准 化 通报 》 由 联邦 德国 标准 学 会 编辑 出 版 ,月 刊 。 报 道 标 准 化 论文 
和 有 关 国 内 外 标准 化 新 闻 以 及 新 颁布 标准 等 。 

4. 英国 国家 标准 及 其 检索 

英国 国家 标准 的 主体 是 英国 标准 (British Standard,BS) ,由 创建 于 1901 年 的 英国 标 
准 学 会 (British Standards Institution,BSI) 负责 制定 。BSI 分 标准 、 质 量 保证 、 信 息 服务 与 
市 场 .公共 事务 .财务 计算 机 管理 .人 事 财产 等 多 个 部 门 , 下 设 近 千 个 技术 委员 会 。 英 国标 
准 在 世界 上 有 较 大 影响 ,因为 英国 是 标准 化 先进 国家 之 一 ,并 为 英 联邦 国家 采用 ,所 以 英 
国标 准 受到 国际 上 的 重视 。 英 国标 准 5 年 复审 1 次 ,现行 标准 1 万 多 件 。 英 国 国家 标准 
及 有 关 出 版 物 主 要 有 下 列 几 种 类 型 : 一 般 标准 (BS)、 实 用 规范 (CP)、 手 册 和 专辑 
(Handbook,PD) 等 。 检 索 英 国标 准 的 主要 工具 有 以 下 三 种 : 

(1)《 英 国标 准 学 会 目录 )(British Catalogue)。 该 目录 由 英国 标准 学 会 按 年 度 编辑 
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发 行 。 

(2)《 英 国标 准 学 会 通报 )(BSI Neres)。 月 刊 ,1946 年 创刊 ,由 英国 标准 学 会 编辑 出 
版 ,报道 标准 化 理论 .国内 标准 以 及 ISO IEC 标准 的 动态 。 

(3)《 英 国标 准 学 会 年 报 》(The BST Annual Report)。 由 英国 标准 学 会 编辑 出 版 , 报 
道 英 国标 准 学 会 .ISO 及 IEC 各 委员 会 的 工作 成 果 。 此 外 ,还 有 《英国 标准 年 鉴 》(British 
Siandards Yearbook)、 中 文 版 的 (英国 标准 目录 ) 等 检索 工具 以 及 相关 的 网 站 检索 系统 可 
供 使 用 ,英国 标准 学 会 (BSD) 检 索 系统 如 图 12-65 所 示 。 


b . Sie Map | Careers | Help | Media centre | Contact BSI © United Kingdom 
Sl. making excellence a habit™ & +44 345 080 9000 
Home Standards Our services Industry sectors ”About BSI Sewreh 65| 图 
e.g.150 9001 


View the complete 
standards catalogue 
图 12-65 英国 标准 学 会 (BSD 检 索 系 统 


12.5.4 中 文 标准 信息 资源 检索 

1. 万 方 标准 检索 系统 

综合 了 由 国家 技术 监督 局 、 建 设 部 情报 所 、 建 材 研究 院 等 单位 提供 的 相关 行业 的 各 类 
标准 题 录 。 截 止 到 2016 年 该 系统 包括 中 国标 准 、 国 际 标准 以 及 各 国标 准 等 近 43 万 项 。 

(1) 万 方 标准 的 分 类 检索 。 万 方 依据 行业 的 不 同 把 标准 分 为 综合 农业、 医药 .矿业 、 
航空 等 一 级 大 类 24 个 ,二 级 分 类 有 针织、 棉 纺织、 铁路 通信 等 217 种 ,便于 用 户 进 行 分 类 
检索 ,实例 如 图 12-66 所 示 。 

(2) 万 方 标准 的 高 级 检索 。 在 标准 类 型 方面 可 以 选择 中 国 国家 标准 、 中 国 行业 标准 、 
国际 标准 化 组 织 标准 、 欧 洲 标准 、 美 国标 准 等 ,同时 可 以 细 化 标准 号 ,标准 名 称 、 关 键 词 、 国 
别 .发布 单 位 .起草 单位 等 内 容 , 以 达到 精确 检索 的 目的 。 高 级 检索 界面 见 图 12-67。 

(3) 万 方 标准 的 专业 检索 。 标 准 的 专业 检索 就 是 要 构造 专业 CQL, 即 构造 专业 的 逮 
辑 检索 表达 式 , 实 现 高 查 准 率 的 目的 。 专 业 检索 界面 见 图 12-68。 
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机 械 
机 械 综合 通用 等 部 件 加 工 工艺 
工艺 装备 全 属 切削 机 床 通用 加 工 工艺 
通用 机 械 与 设备 活塞 式 内 燃 机 与 其 他 动力 设备 

电工 
电工 综合 电工 材料 和 通用 地 件 旋转 电机 
低压 电器 簿 变 电 设备 发 电 用 动力 设备 
电气 设备 与 器 具 电气 照明 电源 
电工 生产 设备 

电子 元 器 件 与 信息 技术 
电子 元 器 件 与 信息 技术 综合 电子 元 件 电 真空 器 件 
半导体 分 立 器 件 光电 子 器 件 微 电 路 
计算 机 信息 处 理 技术 电子 测量 与 仪器 
电子 设备 专用 材料 、 季 件 、 结 构件 电子 工业 生产 设备 

通信 、 广 播 
通信 、 广 播 综合 通信 网 通信 设备 
冒 达 、 导 航 、 逐 控 、 逐 测 、 天 线 广播 、 电 视 网 广播 、 电视 设备 
邮政 通信 、 广 播 设备 生产 机 械 


图 12-66 万 方 标准 检索 系统 的 标准 分 类 检索 部 分 目录 实例 


也 要 


WANFANG DATA 


知识 服务 平台 


交 检索 首页 》 标 准 高 级 检索 


WE = 


高 级 检索 
标准 类 型 : 四 | 
标 惟 编号 : Em 
中 国 国家 标准 本 
任意 字段: 中 国 行业 标准 | ] 
标题 : 二 ee | ] 
国际 电工 委员 会 标准 
关键 司 : 欧洲 标准 [| | 
mi 
站 德国 标准 化 学 会 | 
起 本 单位 : 日 本 工业 标准 调查 会 标准 | | 
美国 国家 标准 学 会 标准 六 


中 国标 准 分 类 号 : 。 | 美国 机 械 工 程 师 协 会 标准 
国际 标 导 分 类 号 :| 美国 材料 试验 协会 标准 


实施 日 期 : | - 3 
确认 日 期 : = 年 
废止 日 期 : | 一 
排序 : 回 相关 度 忧 先 人 〇 发布 日 期 优先 
每 页 显示 : [60 国 


图 12-67 万 方 标准 检索 系统 的 高 级 检索 界面 
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四 玉生 更 
知识 服务 平台 


”» 检索 首页 > 标准 高 级 检索 


sim ne 


专业 检索 
请 输入 CQL 表 达 式 : 


检索 表达 式 使 用 [CQL 检 索 语言 ] , 合 有 空格 或 其 地 特殊 字符 的 单个 检索 词 用 引号 (”") 括 
起 来 ， 多 个 检索 词 之 则 根据 未 辑 关系 使 用 “and” 或 “or” 连 接 。 

@ 提供 检索 的 字段 : 

标准 编号 StanCode ; 标准 名 称 Title ; 发 布 单位 TssueComp ; 发 布 日 期 TssueDate ; 中 国 
标准 分 类 号 ChClass ; 关键 词 Keyxords ; 国 别 代码 StateCodev 

多 可 排序 字段 ; 

发 布 日 期 TssueDate ; 相关 度 relevance。 

例如 : 

1) 加 工 or IssueComp=SBTS 

2) Title 类 1“ 电子 政务 " 

3) 中 国标 准 and Keywords= 食 品 


图 12-68 万 方 标准 检索 系统 的 专业 检索 界面 


检索 表达 式 使 用 [LCQL 检索 语言 ] ,含有 空格 或 其 他 特殊 字符 的 单个 检索 词 用 引号 
(”) 括 起 来 ,多 个 检索 词 之 间 根 据 逻辑 关系 使 用 "and? 或 “or" 连 接 。 提 供 检 索 的 字段 : 标 
准 编号 StanCode, 标 准 名 称 Title 发 布 单位 IssueComp 发布 日 期 IssueDate、 中 国标 准 分 
类 号 ChClass、 关 键 词 Keywords、 国 别 代 码 StateCode。 可 排序 字段 : 发 布 日 期 
IssueDate、 相 关 度 Relevance。 例 如 ,加 工 or IssueComp 二 SBTS、Title Al* 电 子 政 务 ”、 中 
国标 准 and Keywords 王 食品 等 。 

2.CNKI( 中 国 知 网 ) 标 准 检索 系统 

《国家 标准 全 文 数据 库 ) 收 录 了 由 中 国标 准 出 版 社 出 版 的 .国家 标准 化 管理 委员 会 发 
布 的 所 有 国家 标准 , 占 国家 标准 总 量 的 90% 以上。 标准 的 内 容 来 源 于 中 国标 准 出 版 社 ， 
相关 的 文献 .专利 成 果 等 信息 来 源 于 CNKI 各 大 数据 库 。 可 以 通过 标准 号 、 中 文 标准 名 
称 .起 草 单 位 .起草 人 、 采 用 标准 号 发 布 日 期 .中 国标 准 分 类 号 .国际 标准 分 类 号 等 检索 项 
进行 检索 。 标 准 的 收录 年 限 为 1950 年 至 今 。 

(1) CNKI 标准 的 初级 检索 。 初 级 检索 只 需要 确认 检索 (标准 号 .起草 单位 .实施 日 期 
等 ) 后 ,输入 检索 关键 词 即 可 ,用 户 也 可 再 细 化 一 些 标准 产生 的 时 间 段 .匹配 关系 (模糊 或 
精确 ) 结果 相关 度 排序 等 内 容 。 初 级 检索 界面 见 图 12-69 。 

(2) CNKI 标准 的 高 级 检索 。 可 以 用 逻辑 与 .逻辑 或 .逻辑 非 对 标准 号 .起草 单位 、 出 
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oe i en 
入 本 分 类 导 优 
情 选 择 查询 范围 有 运往 检索 项 检索 语 


一 总 目录 EE [SEE 于 习 

ETILEEI 

ms 从 [下 及 人 只 名 窗 。| wg 要 和 国 拓 SF| 避 人 国 | 年 20 图 | 站 中 英 扩展 

ek. 林业 以 村 从 估 帮 【中文 关键 词 。 | 作 大 回 补 等 代 回 夺目 竺 国标 回 即 桂 实施 

回 医药 、 卫 生 、 劳 动 保护 人 

ry ® | 

回 五 油 以 内 容 简介 :实生 | 汉 数 基 库 》 收录 了 现行 、 度 止 被 代 兽 以 及 妈 竺 实 放 的 行业 标准 ， 全 部 村 和 均 区 得 

回 能 源 、 核 技术 忆 上 全文 ) 骨 接 文 献 、 专 利 、 成 果 等 信息 来 源 于 CNKI 各 大 数据 库 。 Eo 和 起 
i 司 本 和 只 分 类 号 。 | 出 版 单位 、 发 布 日 贿 、 中 国标 准 分 类 号 、 国 际 标准 分 关 号 等 过 项 

回 竣 全 久 a 

回 机 械 所 服务 方式 : ”安装 镜 漠 、 流 量 计 费 ( 近 条 计 壹 ) 。 

加 RI 使 用 说 明 : ， 免费 刘 抱 归 录 、 拉 要 和 知 癌 节 。 加 果 策 要 阿 记 全 文 ， 可 通过 知 网 上 ， 相 和 上 了 者 手机 等 方式 进行 殉 
回电 子 元 人 与 全 息 技术 所 Dr er 


图 12-69 ”CNKI 标准 的 初级 检索 界面 


版 单位 ,实施 日 期 等 检索 项 进行 逻辑 组 合 。 在 检索 复杂 的 标准 时 最 多 可 以 使 用 六 个 检索 
项 进行 高 级 逻辑 组 配 。 高 级 检索 界面 见 图 12-70。 


pe wk 

| 清远 拓 查询 范 轩 他 看 。。 坟 大。 本 疝 遇 关系 检索 司 

一 总 目录 田 日 。 | 中 文 标 叭 名 敬 “ 图 | 国 FH#a 国 二 中 
上 至 还 ][ 于 可] 并 且 。 羡 | 英文 标准 名 你“ 立 | 国 FH#a 图 | EE 
回 鱼 合 所 并 且 。 国 | 标 难 引 9 国 国 #8 国 | 国 E 

@tk, 林业 所 EL EE 

i 

回 攻 二、 卫生 . 劳动 人 扩 标 惟 关 者 : 作 斋 回 说 萤 代 回 大 上 和 国标 加 即 格 实 访 

ry ® 人 妇 关 晤 

Bw 六 

回 能 源 、 核 技术 所 .| 主要 起 重 人 

回 人 T 内 容 简介 : 发 布 单位 和) 了 本 和 站- 六 代 关 后 的 合作， 二村 吉利 人 的 

实施 日 其 其 接 廊 献 、 专 利 、 成 果 等 信息 来 源 于 CNKI 各 大 数据 库 。 可 以 通过 标准 号 、 中 文 村 从 名称、 起 
回 冶 全 以 全文 和、 发 和 
Q 中 国标 难 分 天 号 
Le 更 新 且 计 :| 和 性 9S | 


图 12-70 CNKI 标准 的 高 级 检索 界面 


(3) CNKI 标准 的 专业 检索 。 用 复杂 逻辑 表达 式 可 以 对 中 文 标准 名 称 、 英 文 标准 名 
称 \ 标 准 号 、 机 标 关键 词 (中 文 关 键 词 )、 出 版 单位 、 起 草 单位 、 主 要 起 草 人 、 发 布 单位 实施 
日 期 \ 全 文中 国标 准 分 类 号 、 国 际 标准 分 类 号 等 内 容 进 行 逻辑 表达 ,实现 标准 信息 的 精确 
检索 。 专 业 检索 界面 见 图 12-71。 

在 使 用 方法 方面 : 免费 检索 ,免费 浏览 题 录 摘要 和 知 网 节 , 标 准 的 全 文 下 载 需 付 费 ， 
请 先 注册 (作为 大 学 生 ,如 果 所 在 高 校 购 买 了 标准 数据 库 , 查 询 时 无 须 注 册 和 付费 ) 用 户 的 
个 人 账户 ,并 通过 知 网 卡 、 银 行 卡 、 神 州 行 卡 等 方式 给 自己 的 账户 充值 。 流 量 计 费 产品 全 
文 分 为 阅读 版 ,打印 版 阅读 打印 版 三 个 版 本 ,各 版 本 使 用 方式 及 计 费 价格 不 同 ,请 按 提示 
下 载 。 阅 读 版 : 只 可 阅读 不 可 打印 ;打印 版 : 只 可 打印 三 次 不 可 阅读 ;阅读 打印 版 : 可 阅 
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和 要 起 草 人 发 布 单位 ,实施 日 期 全文 ,中 国标 准 分 闪 号 ,国际 标 惟 分 类 号 
区 检索 | 
回 综合 以 
回 农业 、 林业 “ 
团 医药 卫生、 劳动 保护 人 一 
回 ww 所 从 | 不 限 国 年 到 | 不 限 国 年 # 且 了， 加 委 20 国 | 
标 惟 帮 :加 全 迁 回 现行 回 作 度 局 朗 止 竺 国标 加 
相关 度 
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读 可 打印 三 次 。 下 载 后 只 可 在 本 机 使 用 。 第 一 次 打开 PDF 全 文 时 ,请 按 提示 下 载 安装 
Adobe Acrobat 插件 ,插件 安装 成 功 后 方 可 打开 全 文 。 


本 章 小 结 


对 于 大 学 生 或 科技 工作 者 而 言 , 特 种 信息 资源 是 指出 版 发 行 和 获取 途径 都 比较 特殊 
的 科技 类 信息 资源 ,通常 也 指 的 是 除了 普通 图 书信 息 资源 和 期 刊 信息 资源 之 外 的 特种 科 
技 信息 资源 。 它 们 通常 包括 会 议 文献 信息 资源 .科技 报告 信息 资源 .专利 信息 资源 .学 位 
论文 信息 资源 .标准 信息 资源 .科技 档案 信息 资源 .政府 出 版 物 信息 资源 等 七 大 类 。 特 种 
信息 资源 特色 鲜明 内 容 广泛 .数量 庞大 .学习 与 研究 及 其 参考 价值 高 ,在 整个 信息 资源 与 
信息 检索 及 其 利用 过 程 中 起 着 非常 重要 的 作用 。 特 种 信息 资源 的 载体 形式 丰富 ,除了 光 
盘 与 印刷 型 纸 质 载 体外 ,目前 大 多 数 也 以 网 络 数据 库 的 形式 提供 检索 服务 。 

科技 报告 (Scientific& Technical Report) 是 指 对 科学 .技术 研究 成 果 或 研究 进展 的 记 
录 , 也 称 研究 报告 或 报告 文献 。 科 技 报告 的 出 现 早 于 科技 期 刊 ,在 科学 交流 制度 化 之 前 科 
技工 作者 们 就 已 经 生成 各 类 科技 报告 了 。 但 是 ,作为 一 种 传递 科技 信息 的 特定 类 型 的 信 
息 资 源 ,其 历史 能 追溯 到 20 世纪 初 。 当 时 ,只 是 研究 者 或 设计 单位 向 经 费 资助 机 构 提 交 
关于 研究 或 设计 任务 完成 情况 以 及 财务 支出 情况 的 报告 ,大 量 的 研究 成 果 以 内 部 报告 交 
流 的 形式 出 现 。 科 技 报 告 通常 划分 为 : 初期 报告 (Primary Report) 或 开题 报告 ,是 研究 机 
构 对 研究 项 目的 一 个 计划 性 报告 ;中 期 报告 或 过 程 报告 ,如 研究 过 程 中 的 现状 报告 .预备 
报告 .中 期 报告 .进展 报告 非 正 式 报 告 ; 结 题 报告 或 总 结 报告 , 即 研究 工作 结束 时 的 报告 ， 
如 总 结 报 告 综述 报告 试验 结果 报告 竣工 报告 .公开 报告 等 。 

会 议 文 献 (Conference Literature) 就 是 指 在 学 术 会 议 上 宣读 和 交流 的 论文 .报告 及 其 
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他 有 关 资 料 ,并 且 多 数 以 会 议 录 (Proceeding) 的 形式 出 现 。 世 界 上 每 年 产生 的 会 议论 文 
约 10 多 万 篇 ,每 年 出 现 的 各 种 会 议 录 就 达 3000 余 种 。 主 要 的 会 议 资源 检索 工具 或 检索 
平台 包括 《世界 会 议 )《 会 议论 文 索 引 )《 科 技 会 议 录 索引 》、 中 国学 术 会 议 文献 数据 库 、 中 
国 重 要 会 议论 文 全 文 数据 库 .中 国学 术 会 议 在 线 等 。 

学 位 论文 是 高 等 院 校 和 科研 院 所 的 本 科 生 、 研 究 生 为 获得 学 位 资格 (博士 学 位 、 硕 士 
学 位 和 学 士 学 位 ) 而 撰写 的 学 术 性 较 强 的 毕业 研究 论文 ,英国 称 为 Thesis, 美 国 称 为 
Dissertation。 学 位 论文 通常 都 是 经 过 悉心 指导 ,符合 授予 学 位 的 要 求 ,不 少 论文 选 题 新 
颖 ,论述 系统 ,见解 独到 ,具有 独创 性 ,特别 是 博士 论文 ,探讨 一 些 前 人 没有 论 及 过 的 新 领 
域 ,并 且 提 出 具有 独特 、 创 新 的 见解 。 因 此 ,学 位 论文 是 学 者 、 专 家 及 博士 与 硕士 生 智慧 的 
结晶 ,是 了 解 国内 外 科技 研究 发 展 的 重要 的 信息 媒介 ,是 各 国 拥有 自主 知识 产权 的 重要 信 
息 资 源 和 知识 宝藏 ,具有 重大 的 开发 利用 价值 。 

专利 文献 是 科学 技术 的 宝库 。 它 融 技术 、 法 律 和 经 济 信 息 于 一 体 ,是 各 单位 各 部 门 领 
导 了 解 掌握 国内 外 技术 发 展现 状 , 进 行 技术 预测 和 做 出 科学 决策 的 依据 ,是 科研 人 员 和 工 . 
程 技术 人 员 进 行 课题 研究 ,解决 技术 难题 不 可 缺少 的 工具 ;是 发 明 人 寻找 技术 资料 ,不 断 
做 出 新 的 发 明 创造 的 源泉 。 专 利文 献 (Patent Literature) 是 指 记 录 有 关 发 明 创 造 信 息 的 
文献 。 广 义 包 括 专利 申请 书 、 专 利 说明 书 .专利 公报 .专利 检索 工具 以 及 与 专利 有 关 的 一 
切 资料 ;狭义 仅 指 各 个 国家 或 地 区 的 专利 局 出 版 的 专利 说 明 书 或 发 明说 明 书 。 

狭义 的 标准 信息 资源 是 指 按 规定 程序 制定 ,经 公认 权威 机 构 或 主管 机 关 批 准 的 一 整 
套 在 特定 领域 内 必须 执行 的 规格 、 规 则 、 技 术 要 求 等 规范 性 文献 资料 ,简称 标准 。 标 准 是 
大 学 生 获 取 的 一 种 重要 学 习 与 参考 资源 类 型 。 广 义 的 标准 指 与 标准 化 工作 有 关 的 一 切 信 
息 资 源 ,包括 标准 形成 过 程 中 的 各 种 档案 、 宣 传 推广 标准 的 手册 及 其 出 版 物 、 揭 示 报 道 标 
准 文献 信息 的 目录 、 索 引 等 。 国 外 标准 信息 资源 经 常 使 用 的 名 称 有 标准 (standard) 、 规 格 
(Specification) 、 公 报 (Bulletin) .建议 (Recommendation) ,法规 (Code) .手册 (Handbook) 、 
规则 (Rules Instruction) 和 工艺 (Practice) 等 。 标 准 的 制定 和 类 型 按 使 用 范围 划分 有 国际 
标准 、 区 域 标准 、 国 家 标准 ,专业 标准 、 地 方 标准 .企业 标 准 。 


本 章 思 考 与 练习 题 


1. 什么 是 特种 信息 资源 ? 有 哪 几 种 基本 类 型 ? 
2. 什么 是 科技 报告 ? 有 哪些 特征 ? 
3. 科技 报告 有 哪些 类 型 ? 请 举例 说 明 。 
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. 国家 科技 成 果 网 有 哪些 基本 检索 方式 ?举例 说 明 其 高 级 检索 的 基本 应 用 方法 。 


万 方 中 文 科技 报告 数据 库 的 基本 检索 方式 有 哪些 ? 请 举例 说 明 。 


. 举例 说 明 国务 院 发 展 研 究 中 心 报告 ( 国 研 报 告 ) 的 检索 方式 。 

. 举例 说 明 中 国 商 业 报 告 数据 库 的 高 级 检索 与 专业 检索 在 检索 方法 方面 的 差异 。 
. 使 用 什么 数据 库 可 以 对 国外 科技 报告 进行 便捷 检索 ? 

. 什么 是 会 议 文献 ” 有 哪些 类 型 和 主要 特点 ? 

. 国外 有 哪些 主要 会 议 索引 文献 资源 ? 

. 通过 哪些 数据 库 平台 可 以 便捷 检索 国内 会 议 文献 资源 ? 请 举例 说 明 。 
. 什么 是 学 位 论文 ” 如何 检索 国外 主要 学 位 论文 全 文 信息 ? 

. 有 哪些 主要 数据 库 平台 可 以 检索 国内 学 位 论文 信息 资源 ? 

. 什么 是 专利 文献 ? 它 有 哪些 基本 类 型 ? 

. 专利 文献 检索 有 哪些 主要 作用 ? 

. 有 哪些 主要 国外 专利 信息 检索 数据 库 ? 

. 专利 信息 资源 检索 有 哪些 主要 字段 ? 请 举例 说 明 。 

. 举例 说 明 专利 搜索 引擎 的 主要 检索 应 用 。 

. 专利 高 级 检索 与 表格 式 检索 的 差异 ? 请 举例 说 明 。 

.中国 专利 文献 检索 数据 库 平台 有 了 哪些? 

. 举例 说 明 如 何 应 用 高 级 检索 功能 检索 中 文 专利 文献 信息 。 

. 什么 是 标准 ? 标准 文献 有 哪些 类 型 ? 标准 信息 检索 有 何 作用 ? 

. 有 哪些 主要 中 外 标准 信息 检索 平台 ? 

. 如何 使 用 高 级 检索 功能 检索 标准 信息 ? 
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图 书 是 以 传播 知识 为 目的 ,用 文字 或 其 他 信息 符号 记录 于 一 定形 式 的 材料 之 上 的 著 
作物 ;图 书 是 人 类 社会 实践 的 产物 ,是 一 种 特定 的 不 断 发 展 着 的 知识 传播 工具 。 图 书 的 基 
本 构成 要 素 有 被 传播 的 知识 信息 、 有 记录 知识 内 容 的 文字 或 图 像 的 信号 、 有 存储 与 传播 知 
识 信息 的 物质 载体 有 图 书 的 特定 生成 技术 和 工艺 。 图 书 的 含义 十 分 丰富 ,图 书 一 般 指 书 
籍 ,由 出 版 社 出 版 的 相对 独立 的 出 版 物 ; 有 特定 的 书 名 和 著 ( 编 ) 者 名 ;每 种 书 有 不 同 的 篇 
幅 ( 印 张 ) 和 不 同 的 定价 ,并 标 有 国际 图 书 标 准 书号 ISBN。 图 书 一 般 不 做 广告 ,但 可 以 重 
印 和 修订 再 版 。 图 书 主 要 分 为 社会 科学 和 自然 科学 两 大 类 。 本 章 所 指 的 是 其 狭义 概念 即 
书籍 , 即 大 学 生 能 够 通过 图 书馆 或 网 络 查询 并 获取 的 纸 质 与 数字 化 图 书 。 

期 刊 ,也 称 杂 志 。《 辞 海 》 中 期 刊 的 定义 是 : 定期 或 不 定期 的 连续 出 版 物 。 每 期 版 式 
基本 相同 ,有 固定 名 称 。 用 卷 . 期 或 年 .月 顺序 编号 出 版 ,有 专业 性 和 综合 性 两 大 类 。 期 
刊 , 由 杂志 社 定 期 出 版 的 连续 出 版 物 , 如 半月 刊 月刊, 双月刊 和 季刊 等 。 刊 物 有 固定 的 名 
称 、 固 定 的 印张 和 固定 的 定价 ,并 使 用 国际 标准 期 刊 号 (连续 出 版 物 号 )ISSN; 可 设 有 多 个 
栏目 ,版 式 比较 活泼 ,内 容 包 罗 万 象 ,并 可 做 广告 。 刊 物 出 版 后 一 般 不 重印 ,但 可 制作 合 订 
本 。 期 刊 内 容 一 般 比 较 杂 , 故 又 称 杂 志 , 期 刊 分 专业 性 和 综合 性 两 大 类 。 本 书 所 指 的 期 刊 
是 对 大 学 生 的 自主 学 习 、 协 作 学 习 、 探 究 性 学 习 有 辅助 作用 的 学 术 期 刊 。 

图 书 与 期 刊 的 主要 区 别 是 : 期 刊 使 用 的 是 ISSN 即 国际 标准 期 刊 号 (International 
Standard Serial Number,ISSN) ,俗称 连续 出 版 物 号 ;图 书 使 用 的 是 ISBN, 即 国际 标准 图 
书号 ( International Stan-dard Book Number,ISBN ) 。 


13.1 大 型 中 文 图 书目 录 检 索 系 统 


13.1.1 中 国 国 家 图 书馆 联机 公共 目录 查询 系统 

中 国 国 家 图 书馆 ,是 世界 五 大 藏书 过 千 万 册 的 图 书馆 之 一 ,中 国 国家 图 书馆 分 为 总 馆 
南 馆 、 总 馆 北 馆 和 古籍 馆 , 馆 藏书 籍 3119 万 册 , 其 中 古籍 善本 有 200 余 万 册 。2008 年 中 
国 国家 图 书馆 建筑 面积 为 28 万 平方 米 , 是 亚洲 规模 最 大 的 图 书馆 , 居 世 界 国家 图 书馆 第 
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三 位 。 读 者 查询 书籍 可 以 使 用 “中 国 国家 图 书馆 联机 公共 目录 查询 系统 ”。 
1. 读者 的 个 性 需求 “查询 参数 设置 
Q@ “每 页 显示 记录 数 ” 设 置 ,可 选择 3、10、15 或 20 条 ; @ “自动 完整 显示 记录 数 ” 设 
置 ,可 选择 0.5、10 或 15 条; @ 检 索 分 馆 选择 ,默认 为 全 部 ,可 以 选择 中 文 图 书 借阅 区 、 北 
区 图 书 借阅 区 、 南 区 工具 书 借阅 区 古籍 馆 中文 图 书 借阅 区 等 35 个 具体 馆藏 部 门 资料 ; 
图 查询 数据 显示 格式 设置 ,包括 详细 格式 .题名 格式 .简明 格式 \ 卡 片 格式 等 ; @ 列 表 数 据 
是 否 包含 规范 数据 设置 。 读 者 的 个 性 需求 "查询 参数 设置 "如 图 13-1 所 示 。 


中 


新 版 (中 文 ) 


个 人 参数 设置 
每 页 显示 记录 数 : ©3 010 015 O20 
自动 完整 显示 记录 数 : ©0 05 O10 015 
尝 中 认 栓 要 分 人 EPEETTEE 
格式 : CO BE 式 (950) 〇 题名 著者 (951) 〇 仅 题名 (952) 
名 简明 表格 (000) 人 对面 格 式 (998) © 卡片 格式 (037) 


在 训 贤 列表 里 包含 规 苍 数据 吗 ? 介 否 O 〇 是 


图 13-1 中 国 国家 图 书馆 读者 查询 参数 个 性 设置 


2. 多 语种 虚拟 键盘 

使 用 关键 词 可 以 查阅 外 文 图 书 , 在 查阅 外 文 图 书 时 ,可 随时 启用 多 语种 键盘 快速 输入 
查询 词 ,例如 选择 日 文平 假名 、 俄 文 ,希腊 文 等 。 多 语种 虚拟 键盘 使 用 如 图 13-2 所 示 。 

3. 检索 限制 

检索 限制 就 是 限制 一 定 的 图 书 查 询 范 围 : 图 书 资源 的 语种 限制 ,可 以 指定 查询 的 图 
书 为 中 文 英文、 俄 文 .日 文 、 德 文 或 法 文 ;限制 图 书 出 版 的 起 止 时 间 范 围 ,例如 2010 一 
2016 ;限定 资料 类 型 为 图 书 、 期 刊 .电子 文献 等 ;资料 馆藏 位 置 限定 ,例如 法 律 参 考 阅览 室 。 
检索 限制 查询 界面 见 图 13-3。 

4. 检索 字段 限制 

检索 字段 限制 是 对 图 书 的 书 名 、 著 者 、 分 类 号 、 主 题词 出 版 单位 、 索 取 号 .ISBN 号 等 
进行 限定 以 提高 检索 精确 度 。 图 13-4 是 用 著者 字段 以 “ 谭 浩 强 ” 为 检索 词 所 获得 的 检索 
结果 。 
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多 语种 键盘 (Virtual Keyboard) 
请 选择 语言 (Select Language) | Greek 


Wels Hiragana 
加 


Katakana 
Russian 
Chinese 
Diacritics 


Hebrew 
Latin Supplement 

MAB Acute 

MAB Breve 

MAB Caron 

MAB Cedilla 

MAB Circurnflex 

MAB Dot Above 

MAB Dot Below 
国 时 

MAB Line Below 

MAB Macron 

MAB Ogonek 

MAB Ring 

MAB Special Characters 


@ 到 we Tilde 
MAB combined diacritics 


Old Church Cyrillic 
图 13-2 中 国 国家 图 书馆 图 书 查 询 的 多 语种 虚拟 键盘 


EEC 
语言 ”区 宇 国 开始 年 人 ] 站 年 从 :|[ yy 不 合用 起 由 时 ， 合 用 ? 作 需 辣 ) 
| 加 4 加 


图 13-3 ”中国 国家 图 书馆 检索 限制 查询 界面 


E23 司 EE 下 ze 同上 咎 搜索 


排序 : [年 健 序 ) 卉 者 图 | 格式 : | 封面 视图 图 | 选中 记录 ”整合 集合 ”重新 查询 分 类 训 览 | 
记录 1- 20 of 278 (最 大 显示 记录 1000 条) 12345678910 下 一 页 } 


1 口 
| 


作者 : EN (Dobbs, idard) 关 出 版 村 : 广东 人 民 出 上 和 
年 份 : 。 2016 覆 式 : 全 本 书 
馆 桨 复 本 : 4， 已 出 漠 复 本 : 1 


个 ce 
作者 : 谭 洁 强 (1934~) 编著 出 版 社 : ”清华 大 学 出 版 社 
年 份 : 。 2015 格式 : 。 考 图 忆 
馆 疗 复 本 - 4， 已 出 异 复 本 : 1 
国 相 | 
作者 : 谭 尘 强 (1934~) 编 著 出 版 社 : ”清华 大 学 出 版 社 
年 份 : 。 2015 格式 : 全 图 书 


户 芋 复 本 - 4, 已 出 异 复 本 : 1 


13-4 检索 字段 检索 实例 
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图 13-4 中 可 以 运用 ”排序 ”控件 对 检索 结果 进行 五 种 不 同方 式 的 结果 排序 : 著者 / 
题名 ; 四 著者 /年 (降序 ); @ 年 (降序 ) /著者 ; @ 题 名 /年 (降序 ); 加 年 (降序 )/ 题 名 。 同 
时 可 以 选择 图 书 检索 结果 的 不 同 输出 格式 ,以 适应 读者 的 不 同 需求 风格 ,例如 “封面 视 
图 ”“ 简 洁 视 图 ”“ 详 细 视 图 ”等 。 下 面 以 2015 年 清华 大 学 出 版 社 的 “C++ 程序 设计 [ 专 
著 ] / 谭 浩 强 编著 ”为 例 , 说 明 几 种 不 同 的 图 书 检索 输出 格式 。 见 图 13-5 一 图 13-7。 


作者 : 。 谭 洁 强 (1934~) 编著 出 版 社 : ”清华 大 学 出 版 社 
年 份 : 。 2015 格式 : 。 仁 图 书 
馆 迹 复 本 4， 已 出 漠 复 本 : 1 


图 13-5 图 书 检索 结果 的 “封面 视图 "输出 格式 实例 


中 文 图 异同 区 (1111) 
C+ 程序 设计 才 著 ]/ 谭 洁 强 中 文 基 想 ( 1/0) 
i 术 生 (9S 编 车 2015 志和 保 存 本 库 (1/0) 
北 区 中 文 图 书 区 ( 110) 


图 13-6 图 书 检索 结果 的 “简洁 视图 "输出 格式 实例 


ID 号 008009426 


通用 数据 20151008d2015 em yOchiy50 ea 

题名 与 责任 C+ 程序 设计 者 著 ]/ 谭 洁 强 编著 

版 本 项 3 版 

出 版 项 9 北京 :清华 大 学 出 版 社 , 2015 

载体 形 旋 项 19,466 页 ;26cm 

语言 chi 

一 磐 附注 中 国 高 等 院 校 计 算 机 基础 教育 课程 体系 规划 教材 f 钵 尘 强 主编 


本 书 作者 深入 调查 了 大 学 的 程序 设计 课程 的 现状 和 发 展 趋势 ， 参 赔 了 国内 外 数 十 
种 有 关 C++ 的 教材 ,认真 分 析 了 读者 在 学 习 中 的 困难 和 认识 规律 ,设计 了 读者 易 
内 容 提要 于 学 习 的 教材 体系 ， 于 2004 年 出 版 了 《C+ 程序 设计 》 一 书 。 此 次 第 3 版 降低 
入 门 起 点 ， 不 需要 C 语 言 的 基础 ， 从 地 起 点 介绍 程序 设计 和 C++。 书 中 分 为 4 篇 : 
基本 知识 、 基 于 过 程 的 程序 设计 、 基 于 对 象 的 程序 设计 和 面向 对 象 的 程序 设计 。 


主题 c++ 语言 -程序 设计 一 高 等 学 校 一 教材 
中 图 分 类 号 eTP312C++ 
车 者 9 泗 尘 强 (1934-~) 编著 


图 13-7 图 书 检索 结果 的 “详细 视图 ”输出 格式 实例 


5. 高 级 检索 

中 国 国 家 图 书馆 图 书信 息 * 高 级 检索 ”分 为 多 字段 检索 、 多 库 检 索 、 组 合 检索 .通用 命 
令 语言 检索 (普通 ) 浏 览 和 分 类 浏览 共 六 种 。 

(1) 图 书 多 字段 检 索 。 它 主要 是 对 图 书 的 主题 著者、 题名 起 始 于 、 出 版 年 、 词 邻近 关系 
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等 进行 多 字段 检索 ,实现 比较 精确 查找 图 书 资料 的 目的 。 多 字段 检索 界面 实例 见 图 13-8。 


以 题名 的 第 一 个 字 开 始 ) 


中 文 文献 库 国 


图 13-8 图 书 的 多 字段 检索 界面 实例 


(2) 图 书 多 库 检索 。 在 检索 时 ,可 以 对 多 个 数据 库 同时 展开 检索 ,实现 跨 库 检索 的 目 
的 。 在 选择 多 个 检索 库 时 ,也 可 以 对 检索 资料 类 型 范围 .资料 时 间 范 围 和 物理 馆藏 范围 进 
行 检索 限制 。 多 库 检 索 界面 实例 见 图 13-9。 


畏 入 检索 司 或 闻 姐 

检索 字段 其 他 题名 国 

闻 邻 近 ? O 〇 否 @ 是 

达 振 数据 库 - 

回 中 文 及 特 帝 数据 库 

口 ‘ 

i 属 理 询 制品 和 电子 资源 ( 仿 中 外 。。 口 民 语文 献 

口中 文 期 和 口中 文 报纸 口中 文 缩 油 六 南 

口 台 洪 图 书 及 海外 出 版 的 中 文 图 书 。 口 普通 古 藉 ( 合 新 战 装 ) 口 竺 本 古籍 文献 

口 学 位 论文 口 联 合 国资 料 口 地 方志 家 庶 文 献 

口外 文献 数据 总 库 语种 

口外 文 图 书 口外 文 善本 口外 文 缩 油 文献 

口外 文 期 乔 口外 文 报纸 ( 含 台 港 外 文 报纸 ) 。 口外 文江 

口外 文 地 图 口 因 际 组 织 和 外 国政 府 出 版 物 

检索 限制 : 

开始 年 从 结束 年 从 yy 人 不 使 用 起 时 ， 使 用 ? 作 荔 词 ) 
资料 类 型 - [全 部 司 3 司 


13-9 ”图 书 的 多 库 检 索 界面 实例 
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(3) 图 书 组 合 检索 。 组 合 检 索 就 是 对 图 书 的 多 个 检索 字段 进行 逻辑 组 配 (例如 人 逻辑 
与 ) 检 索 。 在 组 合 检索 时 ,可 以 对 查询 资料 的 最 多 三 个 字段 进行 逻辑 组 合 操作 ,同时 进 一 
步 对 “检索 词 邻 近 否 ”和 “检索 限制 "条 件 进行 控制 。 组 合 检索 界面 实例 见 图 13-10。 


组 合 检索 

检索 字段 键入 检索 词 或 词组 局 4gii? 命中 记录 数 
所 有 字段 司 于 © 是 
所 有 字段 国 [ ] O 〇 否 @ 是 
〇 否 @ 是 


点 击 命中 记录 总数 查看 记录 ; 


开始 年 份 : [ ] “结束 年 份 YYYY 时 不 使 用 起 / 止 时 ,使 用 ? 作 截 词 ) 


图 13-10 图 书 的 组 合 检 索 界 面 实 例 


(4) 图 书 通用 命令 语言 检索 。 通 用 命令 语言 检索 也 通常 称 为 “专业 检索 ”, 中 国 国 家 
图 书馆 图 书 的 通用 命令 语言 检索 的 主要 方法 有 以 下 几 种 。 

@ 主要 检索 命令 。 例 如 “WRD= (计算机 OR 电脑 ) AND 软件 ”, 将 检索 出 包含 计算 
机 或 电脑 且 包 含 软件 的 信息 记录 。WRD 一 一 任意 字段 ,WTI 一 一 题名 字段 ,WAU 一 一 作 
者 字段 , WSU 一 一 主题 字段 ,WPU 一 一 出 版 者 字段 ,WYR 一 一 出 版 年 字段 。 

@ 词 邻 近 否 的 食 义 。 词 邻近 选择 为 “是 ”, 表 示 检 索 词 或 短语 完整 地 出 现在 检索 字段 
中 。 词 邻近 选择 为 “ 否 ”, 表 示 检 索 词 可 以 分 开 位 于 所 检索 的 字段 中 。 没 有 选择 “是 ”或 
“ 否 ”, 系 统 将 以 上 次 检索 的 值 为 默认 选择 进行 检索 。 

@ 检索 词 中 的 标点 。 检 索 词 中 的 标点 符号 应 当 去 掉 , 如 . 号 等 。 例 如 visual basic 6.0 
中 的 点 ,应 在 检索 时 去 掉 , 输 入 为 60 即 可 。 

@ 外 文 图 书 的 作者 。 外 文 文献 的 作者 姓名 输入 顺序 为 : 姓 在 前 ,名 在 后 。 如 Bill 
Gates 的 正确 输入 为 “Gates Bill”, 而 不 是 “Bill Gates”,“Bill 。 Gates”, “Bill, Gates”， 
“Gates, Bill” 等 。 

@@ 人 逻辑 运算 的 默认 。and( 与 ) 为 检索 词 之 间 的 默认 人 逻辑 运算 。 如 果 需 要 使 用 其 他 人 逻 
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辑 操作 ,可 以 选择 通用 命令 语言 方式 。 

@ 通配符 ?和 * 的 应 用 .? 或 * 可 用 于 单词 的 开始 或 结尾 ,代替 单词 的 其 他 部 
分 ,?ology 检索 到 anthropology,archaeology ,psychology 等 。Chloro? 检索 到 以 Chloro 
开头 的 单词 .? 查找 不 同 的 拼写 方式 。 如 alumi? m 可 以 匹配 美式 拼写 aluminum 和 英 式 
拼写 aluminium。? 不 能 同时 用 于 单词 的 开始 和 结尾 ,如 ? dva? 视 为 非法 。? 或 * 作为 
占 位 符 , 可 以 代替 任意 多 个 字符 。 如 ps? ic, 检 索 到 以 ps 开头 、 以 ic 结尾 的 所 有 单词 。 

@ 通配符 名和 ! 的 应 用 .% 与 一 个 数字 连用 ,表示 出 现在 两 个 检索 词 之 间 的 单词 个 
数 小 于 该 参数 ,检索 词 出 现 的 顺序 不 固定 。 如 england %3 ballads 检索 到 : Ballads of 
England, England and Her Ballads,and Ballads of Merry Old England 等 。! 与 一 个 数字 
连用 ,表示 两 个 检索 词 之 间 固 定 出 现 若干 个 单词 , 且 检 索 词 出 现 的 顺序 与 输入 顺序 相同 。 
如 ballads ! 3 england 可 以 检索 到 Ballads of England, Ballads of Merry Olde England 。 


但 不 会 出 现 England and Her Ballads。 使 用 % 和 ! 时 ,“ 词 邻近 ”必须 选择 “是 ”。 
通用 命令 语言 检索 界面 实例 见 图 13-11 。 
通用 命令 语言 检索 
键入 通用 命令 语言 短语 
| ] 
闻 邻 近 ? ”人 〇 天 加 是 
数据 库 。 [中 文 文献 库 国 | 
一 一 确 . 定 -一 一- 清 . 除 -一 | 
检索 限制: 
语言 全 部 国 开始 年 份 : [ | “结束 年 份 : ”|yyyy 抽 不 使 用 起 外 时 ， 使 用 ? 作 截 词 ) 
ES | 


图 13-11 图 书 的 通用 命令 语言 检索 界面 实例 


(5) (普通 ) 浏 览 检索 。 依 据 检 索 词 的 中 文 或 西 文 顺序 索引 特征 ,对 检索 结果 的 列表 
进行 浏览 查询 。 浏 览 查询 时 ,可 以 设 定 检索 词 为 正题 名 .其 他 题名 、 主 题词 .著者 等 属性 及 
检索 词 所 属 的 范围 为 中 文 文献 库 或 西 文 文献 库 。 

(6) 分 类 浏览 检索 。 依 据 ( 中 国 图 书馆 图 书 分 类 法 》 对 文献 信息 资源 的 主题 分 类 目 
录 , 在 分 类 目录 的 多 级 子 目录 中 逐 级 浏览 查询 ,来 获得 需要 的 查询 对 象 。 例 如 , 逐 级 浏览 
工 工业 技术 一 TU 建筑 科学 一 TU5 建筑 材料 一 TU52 非 金属 材料 一 TU523 建筑 陶瓷 及 制 
品 , 可 获得 相应 图 书 文献 资料 。 
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13.1.2 CALIS 联合 目录 公共 检索 系统 

中 国 高 等 教育 文献 保障 系统 (China Academic Library & Information System， 
CALIS) ,是 经 国务 院 批 准 的 我 国 高 等 教育 *211 工程 * 九 五 “十 五 ”总 体 规划 中 三 个 公共 
服务 体系 之 一 。CALIS 把 国家 投资 .现代 图 书馆 理念 .先进 技术 手段 ,高校 丰富 的 文献 资 
源 和 人 力 资源 整合 起 来 ,是 一 个 以 中 国 高 等 教育 数字 图 书馆 为 核心 的 教育 文献 联合 保障 
体系 ,实现 信息 资源 共 建 与 共享 。 

(1) 基本 检索 方法 。CALIS 联合 目录 公共 检索 系统 (以 下 简称 OPAC) 采 用 Web 方 
式 提供 查询 与 浏览 。 

@ 多 库 分 类 检索 : OPAC 中 的 数据 ,按照 语种 划分 可 分 为 中 文 西 文 . 日 文 、 俄 文 四 个 
数据 库 ; 按 照 文 献 类 型 划分 ,可 分 为 图 书 .连续 出 版 物 .古籍 。 

@ 排序 功能 : 默认 的 排序 优先 次 序 是 题名 、 相 关 度 。 

@ 检索 历史 : 保留 用 户 发 出 的 最 后 10 个 检索 请 求 ,用 户 关闭 浏览 器 后 ,检索 历史 将 
清空 。 
@ 多 种 显示 格式 : 检索 结果 分 为 多 种 格式 显示 ,包括 详细 文本 格式 .MARC 显示 格 
式 。 前 一 种 格式 对 所 有 用 户 免 费 开 放 , MARC 显示 格式 只 对 CALIS 联合 目录 成 员 馆 开 
放 , 查 看 或 下 载 MARC 记录 , 均 按 照 CALIS 联合 目录 下 载 费 用 标准 收取 。 

@@ 多 种 格式 输出 : 对 所 有 用 户 提供 记录 引文 格式 、 简 单 文 本 格式 、 详 细 文 本 格式 的 输 
出 ,此 外 ,对 CALIS 联合 目录 成 员 馆 还 提供 ISO2709、MARCXML、CALIS bookXML、 
MARC 列表 的 输出 。 提 供 E-mail 与 直接 下 载 到 本 地 两 种 输出 方式 。 输 出 字符 集 提供 常 
用 的 “GBK”“UTF-8”“UCS2”“MARC8” 四 种 ,用 户 可 根据 自己 的 需要 进行 选择 。 

@ 浏览 功能 : 对 古籍 数据 提供 四 库 分 类 的 树 形 列表 浏览 。 

@ 收藏 夹 功能 : 对 有 权限 的 用 户 提供 保存 用 户 的 检索 式 与 记录 列表 、 标 注 书签 .添加 
和 维护 用 户 评论 的 功能 ,目前 这 些 功能 不 对 普通 用 户 开放 。 

@ 馆 际 互 借 : OPAC 系统 提供 用 户 直接 发 送 请 求 到 本 馆 的 馆 际 互 借 网 关 , 用 户 无 须 
填写 书目 信息 。 

(2) 简单 检索 。 默 认为 “全 面 检索 ”, 也 可 以 选择 题名 、 责 任 者 主题 ,分 类 号 、ISBN 号 
等 检索 项 。 简 单 检索 界面 见 图 13-12。 

(3) 高 级 检索 。 高 级 检索 就 是 对 多 个 检索 项 (例如 题名 、 作 者 、 出 版 者 等 ) 进 行 与 或 、 
非 的 布尔 逻辑 表达 且 进 一 步 组 配 检索 项 的 “包含 "“ 前 方 一 致 "与 “精确 匹配 ?关系 ,实现 检 
索 的 高 查 准 率 。 高 级 检索 界面 见 图 13-13。 


482 /大 学 生 信息 检索 素养 教程 


简单 检索 | 有 


| Rss |， 


高 级 检索 。 位 正 在 检索 CALIS 甘 合 目 予 中 心 数 用 库 


[天 名 国 [ ] [es ” 国 [ 与 国 
[bb 者 国 |- | [i 访 -下 图 臣 图 
Eni Wn es] 
mete ee 
内 容 特 征 全部。 国语 种 | 汉语 - 国 
出 版 时 间 | 不 限 ” 国 | | (形式 : YY) 
资源 类 型 ”到 ] 阐 知 适 图 书 ” 卫 ] 分 壬 短 出 版 掀 “ 阿 ] 国 中 文 十 车 了 同 岂 8 田 。 同 涂 乐 次 
风电 子 次 亚 隐 | 留 视频 资料 
清除。 全 选 


图 13-13 CALIS 的 高 级 检索 界面 


CALIS 高 级 检索 的 一 般 方法 包括 : 选择 检索 点 ,输入 检索 词 ,选择 限定 信息 , 单 击 
“检索 ”按钮 或 直接 按 Enter 键 ; @ 默 认 的 检索 匹配 方式 为 前 方 一 致 ,也 可 以 在 复 选 框 中 选 
择 : 精确 匹配 或 包含 ; @ 最 多 可 输入 三 项 检索 词 , 默 认 人 逻辑 运算 方式 为 “与 ”, 也 可 以 在 复 
选 框 中 选择 “或 ““ 非 ”; @ 选 择 分 类 号 检索 点 ,可 以 单 击 “ 中 图 分 类 号 表 ” 按 钮 浏览 ,选中 
的 分 类 号 将 自动 填写 到 检索 词 输入 框 中 ; @ 限 制 性 检索 的 文献 类 型 可 选择 普通 图 书 、 连 
续 出 版 物 .中 文 古籍 ,默认 为 全 部 类 型 ; @ 限 制 性 检索 的 内 容 特征 可 选择 : 统计 资料 .字典 
词典 .百科 全 书 , 默 认为 全 部 ; @ 可 通过 输入 出 版 时 间 对 检索 结果 进行 限定 。 例 如 ,选择 
“ 介 于 之 间 ” 并 输入 “1998 一 2000”, 即 检索 1998 年 至 2000 年 出 版 的 文献 ; @@ 检 索 词 与 限 
制 性 检索 之 间 为 “与 ”的 关系 。 


13.1.3 北京 大 学 图 书馆 公共 查询 系统 
北京 大 学 图 书馆 (Peking University Library) 是 中 国 最 早 的 现代 新 型 图 书馆 之 一 ,是 
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我 国 最 大 的 综合 性 高 等 教育 图 书馆 ,已 发 展 成 为 资源 丰富 、 现 代 化 、 综 合 性 .开放 式 的 研究 
型 图 书馆 。 截 至 2015 年 年 底 , 北 京 大 学 图 书馆 由 总 馆 、 医 学 馆 、38 个 分 馆 、 储 存 馆 组 成 ; 
总 ,分 馆 文 献 资 源 累 积 量 约 1100 万 册 ( 件 ) ,其 中 纸 质 藏书 800 余 万 册 ,以 及 大 量 引进 和 自 
建 的 国内 外 数字 资源 ,包括 各 类 数据 库 .电子 期 刊 . 电 子 图 书 和 多 媒体 资源 约 300 余 万 册 
( 件 )。 北 京 大 学 图 书馆 公共 查询 系统 分 为 基本 检索 和 高 级 检索 两 种 途径 ,资源 类 型 分 为 
图 书 和 期 刊 两 大 类 。 

(1) 基本 检索 。 图 书 检索 的 时 间 范 围 包 括 全 部 时 间 图 书 、 最 近 三 天 新 书 、 最 近 一 周 新 
书 和 最 近 一 月 新 书 ; 检 索 模 式 默认 为 任意 匹配 ,也 可 以 选择 完全 匹配 .前方 一 致 和 后 方 一 
致 。 基 本 检索 界面 见 图 13-14。 


人 北京 大 学 图 书馆 公共 查询 系统 St 


本 过 概况 | 读者 指南 | 公告 信息 | 书目 查询 | 我 的 图 书馆 


基本 检索 高 级 检索 


请 选择 检索 范围 : [全 部 的 图 书 。 国 | 
请 达 择 检索 关 型 : | 正 题名 国 | 
请 选择 检索 模式 : 全 任意 四 也 〇 郊 全 匹配 〇 前 方 一 致 O 后 方 一 到 


图 13-14 北京 大 学 图 书馆 公共 查询 系统 的 基本 检索 界面 


(2) 高 级 检索 。 可 以 对 图 书 的 六 个 主要 检索 项 (ISBN、 正 题名、 出 版 社 \ 主 题词 .责任 
者 和 出 版 年 ) 进 行 逻辑 组 合 检 索 。 高 级 检索 界面 见 图 13-15。 


13.1.4 清华 大 学 图 书馆 馆藏 目录 检索 系统 

清华 大 学 图 书馆 是 我 国 大 型 高 校 图 书馆 之 一 ,馆藏 资源 十 分 丰富 。 截 至 2015 年 年 
底 , 清 华 大 学 图 书馆 ( 含 专业 图 书馆 及 院 系 资料 室 ) 的 实体 馆藏 总 量 约 491. 2 万 册 ( 件 ), 形 
成 了 以 自然 科学 和 工程 技术 科学 文献 为 主体 , 兼 有 人 文 .社会 科学 及 管理 科学 文献 等 多 种 
类 型 多 种 载体 的 综合 性 馆藏 体系 。 除 中 外 文 印刷 型 图 书 外 ,读者 可 使 用 的 文献 资源 还 包 
括 古 籍 线装 书 22 万 多 有 册 、 期 刊 合 订 本 约 57. 4 万 册 、 校 馆 统筹 年 订购 印刷 型 中 外 文 报刊 
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加 | 期 i 

ISBN 正题 名 
出 版 社 ] “主题 司 
责任 者 出 版 年 


| 人 检索 || 局 至 琶 


图 13-15 北京 大 学 图 书馆 公共 查询 系统 的 高 级 检索 界面 


2394 种 ,学校 博 硕士 论文 14. 3 万 余 篇 .缩微 资料 2. 8 万 种 、 各 类 数据 库 551 个 、 全 文 电 子 
期 刊 69737 种 .电子 图 书 840. 3 万 册 .电子 版 学 位 论文 353. 3 万 篇 。 通 过 清华 大 学 图 书馆 
馆藏 目录 检索 系统 可 查询 图 书馆 收藏 的 中 西 文 图 书 .日 文 图 书 、 俄 文 图 书 、. 中 西 文 期 刊 和 
1994 年 以 后 人 藏 的 日 文 期 刊 、 多 媒体 资源 .大 部 分 外 文 电 子 期 刊 ,学 位 论文 和 中 外 文 电子 
图 书 , 以 及 六 个 专业 图 书馆 和 部 分 院 系 资料 室 的 馆藏 。 古 籍 通过 馆藏 古籍 目录 查询 ,其 余 
馆藏 文献 通过 卡片 目录 查询 。 通 用 检索 界面 见 图 13-16 。 


有 -| i le kl es bey 


日 关键 词 阐 单 检索 
» 检 索 范 围 为 所 有 可 检索 字段 ,包括 题名、 作者 及 内 容 附注 等 。 用 “+ 关键 词 ”， 可 限定 关键 词 出 现在 题名 字段 ; 用 “a 关键 
词 ”， 可 限定 关键 词 出 现在 著者 字段 


> 支持 逻辑 算 符 ( and，or、snd not ) ， 西 文 可 使 用 截 词 符 * 。 

» 请 输入 关键 词 ,或 进入 @ 关 键 词 高 骨 检 索 。 
[ 加 ER 国 | 
检索 结果 排序 方式 | 按 相关 度 排 订 


图 13-16 清华 大 学 图 书馆 馆藏 目录 检索 系统 的 通用 检索 界面 


1. 关键 词 高 级 检索 

支持 逻辑 算 符 (and、or、and not), 西 文 可 使 用 截 词 符 * ,可 以 最 多 对 四 个 检索 项 进行 
逻辑 组 合 (逻辑 与 .或 . 非 ) 检 索 , 同 时 可 选择 馆藏 范围 (例如 文科 馆 法律 馆 .总 馆 等 ) 和 资 
源 类 型 ( 纸 质 图 书 、 期 刊 . 工 具 书 .电子 资源 等 ), 也 可 以 控制 检索 结果 的 输出 语种 (例如 中 
文 法文、 德 文英 文 等 )。 关 键 词 高 级 检索 界面 见 图 13-17。 
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图 13-17 关键 词 高 级 检索 界面 


2. 关键 词 简 单 检索 

检索 范围 为 所 有 可 检索 字段 ,包括 题名 、 作 者 及 内 容 附 注 等 。 用 “t: 关 键 词 ”, 可 限定 
关键 词 出 现在 题名 字段 ;用 “a: 关 键 词 ”, 可 限定 关键 词 出 现在 著者 字段 。 关 键 词 简单 检索 
界面 见 图 13-18。 


ET 回 i 


索 结果 排序 方式 | 按 相 关 度 排序 。 靖 


法 律 馆 
其 地 分 馆 及 资料 室 
View Entire Colection 


图 13-18 关键 词 简单 检索 界面 


3. 其 他 检索 方式 

其 他 检索 方式 包括 题名 作者. 主 题词, 索 书 号 .文献 号 和 ISBN 等 。 

(1) 题名 检索 。 系 统 默认 检索 方式 为 前 方 一 致 ,请 输入 完整 题名 或 题名 起 始 部 分 , 题 
名 包括 图 书 名 、 期 刊 刊 名 ,丛书 名 等 出 版 物 名 称 。 如 果 想 使 检索 词 出 现在 题名 的 非 起 始 部 
分 ,请 通过 “关键 词 " 途 径 , 用 “t: 关 键 词 语法 实现 。 例 如 ,完整 图 书 名 : Gone with the 
wind; 完 整 丛书 名 : 中 国 房地产 研究 从 书 ;图 书 名 的 起 始 部 分 : Gone with; 从 书 名 的 起 始 
部 分 : 中 国 房地产 。 

(2) 作者 检索 。 作 者 检索 范围 为 个 人 作者 、 团 体 作 者 和 会 议 名 称 等 。 对 于 个 人 作者 
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请 先 输 入 姓 ,对 于 团体 作者 或 会 议 名 称 请 输入 名 称 的 缩写 或 起 始 部 分 。 例 如 ,个 人 作者 全 
名 ( 姓 在 前 ) : Smith,John; 个 人 作者 名 起 始 部 分 : Smith,J; 个 人 作者 名 起 始 部 分 : Smith; 
团体 作者 全 名 : 清华 大 学 ; 团体 作者 名 起 始 部 分 : 清华 ;完整 会 议 名 称 : Institute of 
Electrical and Electronics Engineers; 会 议 名 称 缩写 : IEEE。 

(3) 主题 词 检索 。 检 索 范围 为 主题 词 字段 ;主题 词 是 用 来 揭示 资料 内 容 特 征 的 词 或 
词组 ; 主题 词 来 源 于 词 表 , 中 文 出 版 物 的 主题 词 选 自 汉语 主题 词 表 , 西 文 出 版 物 的 主题 词 
选 自 美国 国会 图 书馆 主题 词 表 。 例 如 ,Sports medicine、Sports、 计 算 机 、 计 算 机 一 一 软件 。 

(4) 索 书 号 检索 。 索 书号 由 分 类 号 和 区 分 号 构成 ,分 类 号 与 区 分 号 用 空格 隔 开 。 要 
查 一 本 书 可 输入 完整 的 索 书号 ,要 查 一 类 书 可 输入 分 类 号 。 例 如 , H316 FA51、TP316 
25、H316。 

(5) 文献 号 检索 。OPAC 中 的 文献 号 包括 文献 标识 的 多 种 代号 ( 码 ), 如 文献 的 国家 
书目 号 .版 权 登 记号 ,政府 出 版 物 号 ,标准 技术 报告 号 .CODEN 代码 、 统 一 书刊 号 ,标准 
号 .中文 图 书 订购 号 .中文 期 刊 的 CN 号 等 。 请 输入 完整 的 文献 号 或 文献 号 的 起 始 部 分 。 
例如 ,730B0001 .CN 11-1018。 

(6) 国际 标准 书号 检索 。 国 际 标准 号 码 检索 包括 ISBN ISSN ISRC 等 。ISBN 为 国 
际 标准 书号 ,ISSN 为 国际 连续 出 版 物 号 ,ISRC 为 音像 制品 国际 标准 编码 。 例 如 ,10 位 
ISBN: 7-5354-3028-7; 10 位 ISBN: 7535430287; 13 位 ISBN: 978-7-5063-4321-3; 13 位 
ISBN : 9787506343213 。 


13.2 典型 中 文 数 字 图 书 检索 一 一 超星 数字 图 书馆 


“超星 数字 图 书馆 ”为 目前 最 大 的 中 文 在 线 数字 图 书馆 ,提供 大 量 的 电子 图 书 全 文 资 
源 供 阅 读 ,其 中 包括 文学 经济、 计算 机 等 五 十 余 大 类 ,总 数 120 多 万 种 电子 图 书 ,500 万 
篇 论文 ,全 文 总 量 13 亿 余 页 , 超 16 万 集 的 学 术 视 频 。 超 星 数 字 图 书馆 成 立 于 1993 年 ,是 
国内 专业 的 数字 图 书馆 解决 方案 提供 商 和 数字 图 书 资源 供应 商 。 超 星 数字 图 书馆 ,是 国 
家 “863 ”计划 中 国家 数字 图 书馆 示范 工程 项 目 ,2000 年 1 月 在 互联 网 上 正式 开通 ,由 北京 
世纪 超星 信息 技术 发 展 有 限 责任 公司 投资 兴 

1. 超星 中 文 电子 图 书 

高 校 图 书馆 大 多 购买 了 超星 中 文 电子 图 书 ,一 般 分 为 学 校 镜像 和 远程 访问 两 种 形式 ， 
数字 化 近 300 家 图 书馆 馆藏 的 近 120 万 种 全 文 电子 书 。 

(1) 超 星 阅读 器 安装 。 超 星 阅读 器 是 超星 数字 化 资源 的 专用 阅读 器 ,在 手机 端 或 PC 
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端 首先 成 功 安装 后 ,才能 阅读 超星 全 文 电子 资源 。 下 载 安装 与 提示 见 图 13-19 。 


CE 


= 几 ”起 旦 阅读 尝 SSreader 5.4 PC 版 
a : 201646B15 昌 
| 适用 : Windows 援 作 系统 

文件 大 小 : 234M 


立即 下 载 由 


图 13-19 超星 阅读 器 SSreader5.4 下 载 安装 与 提示 


成 功 安装 后 ,作为 大 学 生 因为 不 同 的 使 用 环境 (例如 校园 网 或 非 校园 网 环境 ) 差 异 , 提 
示 界 面 略 有 差异 ,图 13-20 是 成 功 安装 后 在 桂林 电子 科技 大 学 校园 网 中 使 用 的 界面 。 


€ FC Mwslbaycom 


下 天 暑 虹 季 忆 


I 国内 最 大 电子 书 平台 


= a x 百 万 图 书 任 你 读 i 


图 13-20 超星 阅读 器 成 功 安装 后 的 初始 界面 


(2) 图 书 分 类 检索 。 直 接 在 超星 阅读 器 SSreader 左 侧 的 一 级 分 类 目录 中 直接 打开 二 
级 目录 后 查询 。 例 如 依据 “图 书 分 类 ”>“ 工 业 技 术 ” 一 “自动 化 与 计算 机 技术 ”的 顺序 ,可 
以 直接 查询 到 马化腾 著 的 《互联 网 十 国家 战略 行动 路 线 图 ) 一 书 。 阅 读 全 文 的 方式 有 两 
种 : 一 是 网 页 阅读 ,二 是 阅读 器 阅读 。 作 为 高 校 大 学 生 用 户 , 一 般 推荐 阅读 器 阅读 方式 。 
见 图 13-21。 

在 超星 电子 书 “ 在 线 阅 读 ” 模 式 下 , 左 侧 为 图 书目 录 , 读 者 可 以 通过 左 侧 目录 直接 跳 转 
查阅 图 书 原文 内 容 , 也 可 以 逐 页 阅读 内 容 。 该 模式 提供 了 图 书 内 容 的 放大 、 缩 小 、 文 字 摘 
录 、 打 印 \ 下 载 ,同时 提供 三 种 全 文 电子 图 书 阅读 模式 : 带 目录 阅读 、 双 页 阅读 和 全 屏 连 页 
阅读 。 见 图 13-22。 
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EN Es 一] <” CE 
缩 略 图 乐 视 的 超级 电视 为 人 称道 ， 现 在 乐 视 还 出 手机 、 汽 车 。 曾 经 批评 
四 果 生 态 性 差 的 乐 视 负责 人 责 跃 亭 认 为 ， 过 去 10 年 乐 视 的 发 展 ， 就 
基于 用 户 不 断 进 行 跨 界 创新 ， 这 也 是 乐 视 生 态 最 为 核心 的 优势 。 跨 
创新 一 直 是 乐 视 的 一 个 重要 发 展 策略 ， 这 其 中 包括 硬件 创新 、 技 术 
新 、 体 验 创 新 、 营 销 模式 创新 以 及 盈利 模式 创新 。 当 中 国 巨大 的 互 
网 能 力 和 电子 行业 的 制造 能 力 相 结合 ， 就 能 创造 很 多 像 超 级 电视 这 
的 成 功 产品 ， 而 且 可 以 复制 到 很 多 行业 ， 包 括 手机 、 物 联网 等 


图 13-21 超星 电子 书 “ 阅 读 器 阅读 模式 "实例 


[正文 454 页 可 Ks i454 大公 于 小 ”文字 摘录 仿 打 印 [多 纠结 | 各 Tf 二 et 芽 ] 匡 目 冒 
目录 


加 we 人 “互联 网 +” 时 代 的 六 大 特征 
足 界 融合 


目 

以 人 类 已 经 进入 互联 网 时 代 这 样 一 个 历史 阶段 。 这 是 一 

潮流 ， 而 且 这 个 互联 网 时 代 对 人 类 的 生活 、 生 产 、 生 产 
尼 展 都 具有 很 大 的 进步 推动 作用 


图 13-22 超星 电子 书 “ 在 线 阅读 模式 ”实例 


(3) 搜索 “我 的 书架 *"。 读 者 可 以 将 需要 阅读 的 图 书 存放 在 “我 的 书架 ”模块 中 ,便于 
直接 从 我 的 书架 中 查阅 或 直接 搜索 曾经 阅读 且 需 要 继续 完整 或 详细 阅读 的 图 书 。 见 
图 13-23 。 

(4) 简单 检索 。 直 接 使 用 书 名 、 作 者、 目录 和 全 文 检索 项 进行 检索 ,同时 可 以 依据 “图 
书 出 版 日 期 * 和 “ 书 名 ”进行 检索 结果 排序 。 例 如 ,使 用 “律师 ”作为 书 名 进行 检索 ,结果 如 
图 13-24 所 示 。 

(5) 高 级 检索 。 同 时 对 书 名 、 作 者 、 主 题词. 出 版 时 间 段 .主题 分 类 、 分 类 号 ,搜索 结果 
显示 条 数 进行 逻辑 组 配 检索 ,以 提高 对 电子 图 书 的 检索 精度 。 见 图 13-25 。 

2. 超星 读 秀 中 文学 术 搜索 

“超星 读 秀 中 文学 术 搜索 ?是 全 球 最 大 的 中 文 图 书 搜索 及 参考 咨询 文献 传递 系统 , 目 
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| 找到 与 律师 相关 的 图 书 如 下 


控 出 版 日 期 降序 
按 出 版 日 期 升序 
罪 爱 美 志 强 律师 解密 伦理 疑案 20 例 i 
主题 词 法 伦理 学 -案例 rT 
作者 区 志 强 车 控 书 名 降序 
3 201409 
北京 ; 中 国民 主 法 制 出 版 社 
212 
号 D90-053 
阅读 器 网 网 页 阅读 芳 本 忆 [站 收藏 7 证 错 品读 i 


下 我 的 书架 
六 本 地 书架 0 
加 ”最近 阅读 10 
人 包 我 的 最 委 0 
过 下 在 F 载 0 
0 RE + 
[3 < 6 S SS Ew 
Visual C++ 面 向 对 -JAVA 面向 对 象 程 序 Cs 面向 对 象 程序 设 
全 程序 设计 设计 ( 往 = 版 ) 计 及 实 续 教程 
反 近 苍 算 法 有 
及 其 应 用 研究 
[3 < e < 后 呈 
数据 按 据 算法 及 其 应 数据 库 原理 及 应 用 数据 结构 (C++ 
用 研究 版 ) 答 嫩 解 季 与 关 型 
图 13-23 超星 电子 书 ”我 的 书架 查阅 实例 
律师 t 
@ 书 名 个 作者 个 目录 个 全 文 检索 


控 出 版 日 期 降 - 


图 13-24 


超星 电子 书 一 般 检 索 实 例 


书 各 CH 语言 程序 设计 
作者 
主题 词 程序 设计 
年 代 2013 年 。 到 至 2016 年 


到 


图 13-25 


超星 电子 书 高 级 检索 实例 
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前 收录 310 多 万 册 图 书 数据 ,200 多 万 种 原文 共 8 亿 多 页 文献 资料 ,提供 全 文 检索 、 图 书 
搜索 及 多 种 搜索 功能 ,目的 是 让 读者 “找到 得 到 ”和 "* 集 天 下 之 书 为 一 书 ”。 

(1) 图 书 普通 检索 。 在 搜索 框 直接 输入 关键 词 ,关键 词 可 定位 到 全 部 字段 、 书 名 、 作 
者 或 主题 词 中 ,然后 单 击 “ 中 文 搜索 ”按钮 ,将 为 用 户 在 海量 的 图 书 数据 资源 中 进行 查找 。 
如 果 希 望 获 得 外 文 资源 ,可 单 击 “ 外 文 搜索 ”按钮 。 见 图 13-26 。 


( 读 务 


一 一 www.duxiu.com 


知识 图 书 期 刊 报纸 学 位 论文 会 议论 文 文档 | 电子 书 更 多 >> 
高 饶 搜索 
分 类 导航 | 
名 全 部 字段 〇 书 名 〇 作者 人 〇 主题 词 〇 丛书 名 〇 目次 PT : @ 精 确 〇 模 灿 


图 13-26 超星 读 秀一 般 检索 视图 


(2) 图 书 高 级 检索 。 在 检索 框 输入 图 书 的 任 一 或 多 个 检索 项 (例如 ISBN ,主题 词 .说 
明 、 出 版 时 间 等 ) 进 行 馆 辑 组 配 ,然后 单 击 “ 高 级 搜索 ”按钮 ,更 准确 地 定位 到 所 需要 的 图 
书 。 见 图 13-27。 


区 该 务 中 文 图 书 高 级 搜索 Y 。 切 扫 至 专业 搜索 


书 名 : [包含 国 | 大 众 创新 要 搜索 的 图 书 书 各 
作者 : 要 搜索 的 图 书 作者 

主题 词 : 要 搜索 的 图 书 主题 局 

出 版 社 [| ] 要 的 图 出 版 社 
ISBH: 要 搜索 的 图 书 ISBN, 最 少 匹 也 长 度 为 10 
分 类 。 [ 蓉 合 性 图 书 ” ” ” 国 。 要 搜索 的 图 书 分 类 

中 图 分 类 号 : 要 朱 索 的 图 书 的 中 图 分 类 号 
年 代 : [请 选 泽 国 | 至 [请 先 选 择 开 始 年 代 国 | 。 委 盾 索 的 图 节 出 版 皇 代 
选择 搜索 结果 显示 的 条 数 


图 13-27 超星 读 秀 高 级 检索 视图 实例 
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(3) 图 书 专业 检索 。 专 业 标 识 符 的 使 用 含义 : T== 书 名 ,A 二 作者 ,K== 关 键 词 ,S= 摘 
要 ,Y= 年 ,BKs 一 丛书 名 ,BKc 一 目录。 检索 规则 如 下 (以 下 符号 均 为 半角 符号 ) 。 

Q@ 逻辑 符号 : * 代表 并 且 , | 代表 或 者 ,一 代表 不 包含 。 

@ 其 他 符号 : () 括号 内 的 逻辑 优先 运算 ,王后 面 为 字段 所 包含 的 值 ,> 代 表 大 于 ， 
到 代表 小 于 ,> 三 代表 大 于 等 于 ,<< 三 代表 小 于 等 于 。 

@ 大 于 小 于 符号 仅 适用 于 年 代 Y, 如 果 只 有 单 边 范围 ,字段 名 称 必须 写 前 边 ,如 Y= 
2013 ,不 允许 写 出 2013 之 Y ;年 代 不 允许 单独 检索 。 例 如 ,题名 或 关键 词 中 含有 “图 书 
馆 ”, 且 出 版 年 范围 是 2013 年 至 2016 年 ( 含 边界 ), 则 专业 检索 表达 式 为 : (TT 二 图 书馆 | 
K= 图 书馆 ) * (2000 二 = 二 Y 二 ==2013) ,实例 如 图 13-28 所 示 。 


中 文 图 书 专业 检索 w 。 切 要 至 高 级 检索 


中 文 图 书 专业 检索 
(T= 图 书馆 |x= 图 书馆 )* (2013<=Y<=2016) 


图 13-28 超星 读 秀 专业 检索 实例 


3. 超星 发 现 

超星 发 现 以 近 十 亿 海 量 元 数据 为 基础 ,利用 数据 仓储 、 资 源 整合 .知识 挖掘 、 数 据 分 
析 、 文 献计 量 学 模型 等 相关 技术 , 较 好 地 解决 了 复杂 异 构 数 据 库 群 的 集成 整合 ,完成 高 效 、 
精准 、 统 一 的 学 术 资 源 搜索 ,进而 通过 分 面 聚 类 、 引 文 分 析 、 知 识 关 联 分 析 等 实现 高 价值 学 
术 文 献 发 现 、 纵 横 结 合 的 深度 知识 挖掘 、 可 视 化 的 全 方位 知识 关联 ,能 够 为 大 学 生 的 探究 
性 与 研究 型 学 习 提供 专业 搜索 服务 。 

(1) 超星 发 现 一 般 检 索 。 直 接 用 关键 词 . 作 者 等 单一 检索 项 进行 检索 。 图 13-29 是 以 
“杂交 水 稻 袁隆平 ?为 检索 词 的 一 般 检索 结果 ,包含 了 丰富 的 发 现 与 分 析 数 据 ( 例 如 被 引 
频次 、 研 究 趋 势 图 等 ) 。 

(2) 超星 发 现 高 级 检索 。 不 仅 可 以 选择 待 检索 资源 的 语种 与 文献 类 型 ,还 可 以 通过 
“十 ”和 “一 ”符号 来 “ 按 需 调节 ”最 大 检索 项 ,以 实现 精确 检索 。 超 星 发 现 高 级 检索 视图 
图 13-30。 

(3) 超星 发 现 专业 检索 。 包 括 以 下 几 方 面 内 容 。 

@ 专业 检索 的 通用 字段 标识 符 : TT 二 题名 ( 书 名 、 题 名 ) ,A 王 作者 (责任 者 ) ,KK 三 关键 
词 ,S= 文 摘 ( 摘 要 、 视 频 简介 ),O 王 作者 单位 (作者 单位 .学 位 授予 单位 .专利 申请 人 ) ,Su 
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学 习 宝 间 | 期刊 导航 | 论文 检 刊 | 进出 全 


@ 超星 发 现 xx 和 am 两 条 


〇 在 限定 条 件 下 重新 检索 。 〇 在 结果 中 检索 。 人 @O 重新 检索 


本 灶 检 索 | 5 人 闪 于 Sm 1360 人 多 四 + [RE ol 
口 只 检索 学 椒 文章 相关 论著 发 文 量 直 势 图 
500 
口 不 包含 报 纸 文章 400 
200 
口 只 栓 壳 全托 本 机 潭 0 
1997 1999 2001 2003 2005 2007 2009 2011 2013 2015 
口 只 检索 全 电子 机 天 
图 书 ] 改变 世界 的 一 冬 种 子 记 杂 交 水 在 之 父 喜 鞭 平 多 必 亲 。” 国 分 节 到 
言 
lal ， 作者 : 序 合 经 洲 
类 型 分 有 图 人 出 处 : 北京 ; 北京 大 学 出 版 社 2015 144 页 
内 容 y ~ 
任何 下 汪 荐 要 : 本 书 了 和 之 父 ”、 国 家 科学 技术 进步 交尾 等 奖 父 得 者 章 隆 平 的 科研 故事 。 全 书 分 为 追 梦 人生. 
苞 情 过 径 ， 图 拘 沁 过 图 所 民 立 二 传 进 
口 图 书 (56) 保存 是 录 
口 凤 laos3) 
口 (853) [时 刊行 动 者 网络 理论 视角 下 民生 技术 发 明 机 制 研究 :以 让 隆平 洒 交 水 昌 必 三 。 国 邹 邓 到 
es 硕 技 术 发 明 为 例 ED 加 国 引 E( 
四 作者 : 夏 保 华 ， 张 浩 ( 不 南 大 学 区 学 与 科学 系 ) 
口 会 议论 文 (47) 
出 处 ; 科技 进步 与 对 第 2014 第 31 扼 第 153B P1-4 1001-7348 
站 ARWem 关键 司 : 行动 者 了 各 杂交 水 四 民生 技术 发 明 技术 发 明 机 抽 
口 Mae1) pe 简要 : _ 挥 完 民生 技术 发 明 运 行 机 制 对 我 国民 生 技术 发 展 具 有 重要 的 理论 和 现实 意义 。 吉 隆平 休 交 水 稻 技 术 发 明 是 在 我 
口 科技 成 果 (50) 国 科研 条 件 概 端 落后 的 文化 大 革命 时 期 区 福成 功 的 
口 潮流 规 (18) 于 得 途径 ; 推荐 ( 甸 库 】 CNKI( 包 库 ) 性 这 童 下 载 文献 传 六 
加 
[3 | 画 


图 13-29 超星 发 现 一 般 检 索 实例 图 


三 主题,Z== 全 部 字段 ,Y= 二 年 (出 版 发 行 年 、 学 位 年 度 、 会 议 召 开 年 .专利 申 请 年 标准 发 
布 年 ) 。 

@ 专业 检索 的 文献 类 型 标识 符 : BK= 图 书 ,JN= 期 刊 ,DT= 学 位 ,CP 二 会 议 ,PT 
专利 ,ST 三 标准 ,VI 二 视频 ,NP 二 报纸 ,TR= 科 技 成 果 。 

@ 非 通用 字段 标识 符 (需要 加 上 文献 标识 才能 检索 )。 图 书 : BKs 王 丛书 名 ;期 刊 : 
JNj== 刊 名 ;学 位 : F= 指 导 老师 ,DTn 二 学 位 ,Tf 二 英文 题名 ,DTa 二 英文 文摘 ;会 议 : CPn 王 
会 议 名 称 ;报纸 : NPn 二 报纸 名 称 ;专利 : PTt 二 专利 类 型 ;标准 : STd 二 起 草 单位 。 

@ 检索 基本 方法 应 用 。 包 括 以 下 几 方 面 内 容 。 

运算 符号 : * 代表 并 且 , | 代表 或 者 ,一 代表 不 包含 ,." 代 表 精 确 匹 配 ," 代表 模糊 
匹配 。 

逻辑 关系 符 : AND( 与 )\.OR( 或 )\NOT( 非 ) 用 于 字段 之 间 的 逻辑 关系 ,前 后 要 空 一 
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(@@ 超星 发 现 


搜索 1348 家 图 书馆 的 资料 文献 ,为 教育 科研 提供 专业 服务 


融 季 检索 专业 检索 
返回 简单 检索 
语种 选择 : 加 中 文 加 外 文 供认 全 部 语种 检索 ) 
文献 类 型 选择 : 四 图 书 口 期刊 站 报纸 口 学 位 论文 门 会 议论 文 
标准 | 专利 口 视频 [| 科技 成 果 你 认 全 部 类 型 检索 ) 
十 | 一 | | 和 部 守 及 。 国 | 精确 国 
与 辆 | 人 部 段 国 | 模 相 加 
与 ”图 | 全 部 段 ”图 | 精确 国 


说 明 ; 高 级 检索 多 个 条 件 检索 时 是 控 照 顺序 运算 的 ; 如 A 或 8 与 C 即 "(A 或 8) 与 C 


ISBN | ss | 


年 份 : | 开始 年 份 国 | 至 | 请 先 选择 开始 年 代 国 | 


每 页 显示 条 数 : @15 条 ”O30 条 


只 显示 ; 口 馆 迹 目录 中 的 条 目 (印刷 和 实物 资料 ) 
Y | 户 癌 电子 资源 


图 13-30 超星 发 现 高 级 检索 视图 


从 安 项 


个 子 D。 

运算 符 及 逻辑 符 的 优先 级 相同 ,车 要 改变 组 合 的 顺序 ,请 使 用 英文 半角 括号 “()” 括 
起 ;如 : 检索 期 刊 题名 包含 图 书馆 或 教育 , 且 作 者 是 王 伟 , 出 版 年 范围 2000 年 至 2013 年 
( 含 边界 ): JN(T= 图 书馆 | 教育 AND A= 王 伟 ) AND (2000<Y<2013) 。 

外 文 数据 字段 的 值 需 要 加 模糊 匹配 符号 "或 者 精确 匹配 符号 "", 如 下 = 
"cryptography"|'cipher code'| "Multimedia security"( 注 : 所 有 符号 和 英文 字母 ,都 必须 使 
用 英文 半角 字符 ) 。 

超星 发 现 专业 检索 实例 见 图 13-31 。 

(4) 超星 发 现 系统 的 核心 搜索 价值 。 激 发 创新 灵感 ,洞察 全 局 以 发 现 科 学 研究 价值 ， 
让 巨人 的 肩膀 成 为 知识 价值 再 生 的 基石 。 

@ 多 维 分 面 聚 类 。 超 星 发 现 依托 高 厚度 的 元 数据 资源 ,通过 采用 分 面 分 析 法 ,可 将 
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人 0 超星 发 现 


搜索 1348 家 图 书馆 的 资料 文献 ,为 教育 科研 提供 专业 服务 
专业 检索 


| JN (IT= 图 书馆 | 教育 AND A= 王 伟 ) AND (2013<Y<201 中 


图 13-31 超星 发 现 专 业 检索 实例 


搜索 结果 按 各 类 文献 的 时 间 维 度 、 文 献 类 型 维度 、 主 题 维度 、 学 科 维 度 、 作 者 维度 、 机 构 维 
度 、 权 威 工具 收录 维度 以 及 全 文 来 源 维度 等 进行 任意 维度 的 聚 类 。 用 户 可 根据 实际 需要 
进行 任意 维度 的 组 配 检索 .自由 扩 检 和 缩 检 ,从 而 实现 文献 资源 发 现 的 精炼 聚 类 和 精准 化 
搜索 ,将 最 重要 、 最 核心 .最 有 价值 的 资源 按 相关 度 、 被 引 频次 \ 时 间 ,影响 因子 等 方式 进行 
结果 呈现 。 

@ 智能 辅助 检索 。 超 星 发 现 提供 强大 的 智能 辅助 搜索 功能 ,借助 内 置 规范 知识 库 与 
用 户 的 历史 检索 发 现行 为 习惯 ,自动 判别 并 切换 到 与 用 户 近 期 行为 最 贴切 的 领域 和 关注 
热点 ,同步 显示 与 用 户 检索 主题 相应 的 解释 ,帮助 实时 把 握 所 检索 主题 的 内 涵 , 并 优先 按 
用 户 筛 选 文献 的 喜好 显示 检索 结果 ,提高 发 现 精准 度 和 检 准 率 。 

@ 立体 引文 分 析 。 超 星 发 现 可 实现 图 书 与 图 书 之 间 、 期 刊 与 期 刊 之 间 、 图 书 与 期 刊 
之 间 , 以 及 其 他 各 类 文献 之 间 的 相互 参考 .相互 引证 关系 分 析 。 借 助 超星 发 现 的 文献 引用 
频率 分 析 研 究 ,可 有 效 测定 与 评价 某 一 文献 . 某 一 学 科 、 某 一 作者 乃至 某 一 机 构 的 学 术 影 
响 力 。 借 助 超星 发 现 的 文献 间 相 互 引证 逻辑 关系 ,可 分 析 获 得 某 一 学 术 思 想 的 历史 渊源 、 
传承 脉络 以 及 演变 规律 。 

@ 探究 学 术 源 流 。 探 究 学 术 源 流 可 以 把 文献 资源 的 研究 单位 从 单一 的 文献 深化 到 
文献 中 存在 的 知识 关联 中 。 通 过 学 术 源流 可 以 按照 知识 概念 形成 知识 相关 链 ,这 些 关 联 
就 是 知识 关联 的 基础 。 超 星 发 现 能 够 按照 知识 概念 给 出 知识 关联 图 谱 , 通 过 单 向 或 双向 
线性 知识 关联 构成 的 链 状 、 网 状 结构 ,形成 主题 学 科 、 作 者 、 机 构 、 地 区 等 关联 图 ,从 而 反 
映 出 学 术 思 想 之 间 的 相互 影响 和 源流 。 

@ 揭示 知识 关联 。 超 星 发 现 集 知 识 挖掘 .知识 关联 分 析 与 可 视 化 技术 于 一 体 , 能 够 
将 发 现 数据 及 分 析 结 果 以 表格 、 图 形 等 方式 直观 展示 出 来 。 知 识 关联 是 我 们 从 事 知识 活 
动 和 知识 管理 的 基础 ,知识 管理 的 目的 是 为 科学 组 织 和 有 效 利 用 知识 ,而 知识 关联 是 科学 
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组 织 和 有 效 利 用 知识 的 基本 出 发 点 和 理论 依据 。 因 此 ,可 以 说 知识 管理 的 本 质 是 知识 关 
系 的 管理 ,通过 知识 关联 为 研究 者 从 宏观 角度 直观 地 把 握 海 量 数 据 之 间 的 规律 和 整体 面 
貌 , 直 观 揭示 人 与 人 、 人 与 机 构 、 人 与 知识 ,以 及 知识 与 知识 之 间 的 关联 ,从 而 反映 出 不 同 
学 者 \ 不 同 机 构 对 某 一 领域 的 研究 强度 与 贡献 ,反映 出 某 一 领域 关联 知识 的 相互 交叉 支持 
强度 ,为 进一步 追踪 、 拓 展 和 创新 该 领域 的 研究 提供 思路 。 

@ 揭示 学 术 趋 势 。 超 星 发 现 具备 对 搜索 结果 进行 年 代 分 布 规律 分 析 的 功能 ,可 揭示 
出 任 一 主题 学 术 研 究 的 时 序 变 化 趋势 图 ,进而 帮助 研究 者 在 大 时 间 尺 度 和 全 面 数 据 分 析 
的 高 度 洞察 该 领域 研究 的 起 点 .成 长 .起伏 与 兴衰, 从 整体 把 握 事物 发 展 的 完整 过 程 和 走 
向 。 无 论 是 在 上 升 或 下 滑 趋 势 曲 线 中 , 当 曲 线 在 某 一 阶段 处 于 上 升 或 者 处 于 波峰 阶段 时 ， 
即 是 在 该 时 间 段 内 学 术 研 究 兴 盛 的 时 段 ; 当 曲线 在 某 一 阶段 处 于 下 滑 或 者 处 于 波 谷 阶段 
时 , 即 是 在 该 时 间 段 内 学 术 研 究 低迷 的 时 段 ,同时 也 具有 学 术 趋 势 发 展 的 预 判 分 析 , 为 预 
测 该 学 术 未 来 发 展 的 趋势 提供 帮助 。 


13.3 典型 中 文学 术 期 刊 论文 检索 


学 术 期 刊 (academic journal) 是 一 种 经 过 同行 评审 的 学 术 性 刊物 ,在 学 术 期 刊 上 发 表 
的 文章 通常 涉及 特定 的 学 科 。 学 术 期 刊 展示 了 某 些 研究 领域 的 研究 成 果 , 并 起 到 了 公示 
的 作用 ,其 内 容 主 要 以 原创 研究 .综述 文章 .书评 等 形式 的 学 术 文 章 为 主 。 学 术 期 刊 论文 
也 是 大 学 生 进 行 自主 学 习 、 探 究 与 发 现 学 习 所 不 可 或 缺 的 重要 参考 资料 ,在 学 习 过 程 中 的 
课程 小 论文 .实验 报告 .课程 设计 、 实 习 报 告 、 学 术 成 果 发 表 、 创 新 与 实践 项 目 申报 及 其 毕 
业 论 文 撰写 ,都 需要 查阅 专业 学 术 期 刊 论文 资料 。 

作为 大 学 生 , 需 要 了 解 和 把 握 自身 专业 领域 的 学 术 期 刊 ,尤其 是 专业 性 的 核心 期 刊 。 
《中 文 核心 期 刊 要 目 总 览 交 简称 北大 核心 ) 由 中 国 知 网 .中 国学 术 期 刊 网 和 北京 大 学 图 书 
馆 期 刊 工 作 研 究 会 联合 发 布 。 中 文 核心 期 刊 目录 是 学 术 界 对 某 类 期 刊 的 定义 ,是 一 种 期 
刊 等 级 划分 类 型 , 它 的 对 象 是 中 文学 术 期 刊 ,是 根据 期 刊 影响 因子 等 诸多 因素 所 划分 的 期 
刊 。 中 文 核心 期 刊 是 北京 大 学 图 书馆 联合 众多 学 术 界 权威 专家 鉴定 , 目前 受到 了 学 术 界 
的 广泛 认同 。 从 影响 力 来 讲 ,其 等 级 属 同类 划分 中 较 权 威 的 一 种 ,是 除 南 大 核心 .中 国 科 
学 引文 数据 库 以 外 学 术 影 响 力 最 权威 的 一 种 。 按 照 惯 例 ,北大 核心 期 刊 每 四 年 由 北大 图 
书馆 评定 一 次 ,并 出 版 (北大 核心 期 刊 目录 要 览 ) 一 书 。 

国内 核心 学 术 期 刊 评选 体系 有 : 北京 大 学 图 书馆 “中 文 核心 期 刊 ”、 南 京 大 学 “中 文 社 
会 科学 引文 索引 (CSSCD) 来 源 期 刊 ”、 中 国 科学 技术 信息 研究 所 “中 国 科 技 论文 统计 源 期 
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刊 ”( 又 称 " 中 国 科技 核心 期 刊 ” .中 国 社会 科学 院 文献 信息 中 心中 国人 文 社会 科学 核心 
期 刊 ” 中 国 科学 院 文献 情报 中 心中 国 科学 引文 数据 库 (CSCD) 来 源 期 刊 ”中 国人 文 社会 
科学 学 报 学 会 “中 国人 文 社 科 学 报 核心 期 刊 ”以 及 万 方 数据 股份 有 限 公司 建设 的 “中 国 核 
心 期 刊 洲 选 数 据 库 ”。 


13.3.1 CNKI 中 国学 术 期 刊 网 检索 

国家 知识 基础 设施 (National Knowledge Infrastructure,NKDJI) 的 概念 由 世界 银行 于 
1998 年 提出 。CNKI 工 程 是 以 实现 全 社会 知识 资源 传播 共享 与 增值 利用 为 目标 的 大 型 信 
息 化 建设 项 目 ,由 清华 大 学 、 清 华 同方 发 起 , 始 建 于 1999 年 6 月 《中国 学术 期 刊 ( 网 络 
版 ) 光 国内 统一 连续 出 版 物 号 CN11 一 6037/2Z) 是 世界 上 最 大 的 连续 动态 更 新 的 中 国学 术 
期 刊 全 文 数据 库 ,是 “十 一 五 ”国家 重大 网 络 出 版 工程 的 子 项 目 ,是 (国家 “十 一 五 ”时 期 文 
化 发 展 规划 纲要 》 中 国家 “知识 资源 数据 库 ? 出 版 工程 的 重要 组 成 部 分 。 

CNKI 中 国学 术 期 刊 网 的 内 容 以 学 术 .技术 ,政策 指导 高 等 科普 及 教育 类 期 刊 为 主 ， 
内 容 覆 盖 自 然 科 学 .工程 技术 .农业 哲学、 医学 .人 文 社会 科学 等 各 个 领域 。 收 录 国 内 学 
术 期 刊 8192 种 ,全 文 文献 总 量 46 759 660 篇 。 学 术 论文 数据 库 产品 分 为 十 大 专辑 : 基础 
科学 .工程 科技 工 . 工 程 科技 开 .农业 科技 .医药 卫生 科技 .哲学 与 人 文科 学 、 社 会 科学 工 、 
社会 科学 工 .信息 科技 、 经 济 与 管理 科学 。 十 大 专辑 下 分 为 168 个 专题 。 数 据 库 收录 的 论 
文 为 自 1915 年 至 今 出 版 的 期 刊 ,部 分 期 刊 回溯 至 创刊 。 

(1) CNKI 中 国学 术 期 刊 网 分 类 检索 。 依 据 检索 界面 左 侧 的 分 类 导航 目录 逐 级 分 类 
查找 ,可 以 获得 子 类 中 的 学 术 论 文 资料 。 图 13-32 是 依据 "分 类 目录 ”一 “信息 科技 ”一 “ 互 
联网 技术 ”一 “网 络 安全 ”的 分 类 层次 所 获得 的 检索 结果 实例 。 


75.819 1300| 下 一 页 
占 无 贱 电 电子 学 口 葛 名 作者 和 刑名 年 类 被 引 下 载 预览 分 享 
回 口 电信 技术 和 
左 青云 
回 器 计算 机 硬件 技术 际 鸣 : 赵 
回 计算 机 软件 及 计算 机 应 用 DD 矿 松 : 懂 20130 
日 口 到 了 技术 口 1 基于 OpenFlow 的 SDN 技 术 研究 从 才 3 长 友 - 张 驶 件 学 报 5 267 量 7592 CD 
口 计算 机 网 络 理论 ee 
口 8 结构 与 设计 
口 通 入 协 议 | 
口 通信 设备 与 路 口 2 基于 多 类 特征 的 Android 应 用 恶意 行为 检测 系统 和 it 3 旺 2192 加 
口 网 站 管理 与 E 行 至 刀 
日 划 向 字 
回 回 网 8 应 用 程 订 口 3 社会 网 络 数据 发 布 隐私 保护 技术 综述 % 坟 当 闪 | 
加 口 各 种 网 六 酰 大 全 


图 13-32 CNKI 中 国学 术 期 刊 网 分 类 检索 实例 
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从 图 13-32 可 以 得 出 在 "网络 安全 ”方面 的 学 术 论 文 总 量 为 75 819 篇 (截至 2016 年 7 
月 ) ,学 术 价 值 较 高 且 排名 靠 前 的 学 术 论文 的 作者 、 期 刊 名 .被 引 量 `. 下 载 量 等 有 价值 的 信 
息 , 对 于 进一步 下 载 和 阅读 全 文 内 容 有 着 重要 参考 价值 。 

(2) CNKI 中 国学 术 期 刊 网 一 般 检 索 。 它 就 是 直接 用 主题 .篇 名 ,关键 词 , 作 者 、 作 者 
单位 、 刊 名 .ISSN、CN.、 期 .基金 .摘要 ,全文 .参考 文献 .中 图 分 类 号 .DOI、 栏 目 信 息 16 种 
期 刊 论文 信息 字段 进行 检索 。 上 默认 输入 两 个 检索 词 , 可 以 根据 需要 应 用 “十 ”和 “一 ”增删 
检索 词 输入 的 最 大 量 , 利 用 "十 ”可 以 增加 最 多 的 检索 项 为 14 个 。 同 时 可 以 控制 信息 的 来 
源 类 别 , 默 认为 全 部 期 刊 。 一 般 检索 视图 见 图 13-33。 


检索 高 级 检索 专业 检索 作者 发 文 检索 。 科研 基金 检索 句子 检索 来 源 期 刊 检索 
输入 检索 条 件 : 
日 (| 让 加 并 售 国 | 精确 国 ) 


从 | 不 限 国 年 到 | 不 限 国 | 年 来 源 类 别 : 万 全 部 期 刊 万 SC! 来 源 姑 刊 y ”EI 来源 贿 刊 忆 核心 期 刊 CSSCI 


图 13-33 CNKI 中 国学 术 期 刊 网 一 般 检索 视图 


(3) CNKI 中 国学 术 期 刊 网 高 级 检索 。 可 以 对 最 多 14 个 检索 词 进行 布尔 多 辑 组 配 ， 
同时 可 以 对 时 间 段 .更 新 时 间 ( 最 近 半 年 .最 近 一 月 等 )、 期 刊 来 源 、 支 持 基金 .作者 与 作者 
单位 等 检索 项 进行 限定 。 高 级 检索 视图 见 图 13-34 。 


期 刊 ~ 期 刊 导航 
检索 高 级 检索 考 业 检索 作者 发 文 检索 。 科研 基金 检索 句子 术 索 来 源 期 刊 检索 
输入 检索 条 件 i 
田 日 ”(| 主 题 图 词 频 国 | 并 含 图 词 频 国 | 精 确 阅 ) 
并 且 国 |(| 篇 名 回 | 词 频 国 | 并 售 图 词 频 国 | 模糊 国 ) 
或 者 国 |(| 关 键 词 。 辆 | 词 频 贺 | 并 含 国 词 频 圆 | 模糊 国 ) 
不 含 国 |(| 摘 要 图 词 频 国 | 并 售 图 词 频 国 | 精确 国 |) 
从 |2010 贺年 到 | 2016 贺年 ”指定 期 : | 更 新 时 间 : | 不 限 ” 国 
来 源 其 刊 | :| 输入 贿 刊 名 称 ，IS5N, CR 均 可 区 本 加 
来 源 类 别 : 太 全 部 期 刊 万 SCI! 来 源 期 刊 所 EI 来 源 期 刊 万 核心 期 刊 区 CSSCI 在 线 
支持 基金 : | 辆 入 基 全 名称 闫 确 je 咨询 
曙 |[t 者 。 国 [天 万 [本 请 园 作者 单位 : | 桂林 电子 科技 大 学 和 | 国 
口 似 限 忧 先 出 版 论文 口 中 英文 扩展 检索 检索 ” 罗 芍 革 


13-34 ”CNKI 中 国学 术 期 刊 网 高 级 检索 视图 
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(4) CNKI 中 国学 术 期 刊 网 专业 检索 。 专 业 检 索 用 于 图 书 情报 专业 人 员 查 新 、 信 息 分 
析 等 工作 ,使 用 人 逻辑 运算 符 和 关键 词 构 造 检 索 式 进行 检索 。 跨 库 专 业 检 索 支 持 对 以 下 检 
索 项 的 检索 : SU= 宇 题 ',TI 二 题名 ',KY 二 关键 词 ', AB=' 摘 要 ',FT==' 全 文 ',AU 二 作者 '， 
FI 二 第 一 责任 人 ', AF 二 ' 机 构 ',JN==' 中 文 刊 名 '&&' 匡 文 刊 名 ',RF 二 | 文 ', YE 一 年 ,FU 一 
基金 ',CLC=' 中 图 分 类 号 ',SN 二 TSSN',CN= 统 一 刊 号 ',IB==TSBN' ,CF=' 被 引 频 次 '。 

“AND”“OR”“NOT” 三 种 逻辑 运算 符 的 优先 级 相同 ;如 要 改变 组 合 的 顺序 ,请 使 用 
英文 半角 圆 括号 ”() ”将 条 件 括 起 ; 逻辑 关系 符号 (与 (AND) 或 (OR)、 非 (NOT) 前 后 要 
空 一 个 字 节 ; 使 用 “ 同 句 ”“ 同 段 "“ 词 频 ” 时 , 需 用 一 组 英文 单 引 号 将 多 个 检索 词 及 其 运 
算 符 括 起 ,如 ' 流 体 # 力 学 '。 假 设 检 索 钱 伟 长 在 清华 大 学 或 上 海 大 学 期 间 发 表 的 文章 。 检 
索 式 : AU= 钱 伟 长 and (AF== 清 华 大 学 or AF= 二 上 海 大 学 )。 假 设 要 求 检 索 钱 伟 长 在 清 
华 大 学 期 间 发 表 的 题名 或 摘要 中 都 包含 “物理 ”的 文章 ,检索 式 : AU 三 钱 伟 长 and AF= 
清华 大 学 and (TI 二 物理 or AB= 物 理 ) ,实例 如 图 13-35 所 示 。 


检索 高 级 检索 专业 检索 作者 发 文 检索 。 科研 基金 检索 句子 检索 来 源 期 刊 检索 
AV = 钱 伟 长 snd 好 = 清华 大 学 sand (TI -物理 or 如 = 物理 ) 检索 表达 式 语法 


发 表 时 间 : 从 | 不 限 ” 贺 | 年 到 | 不 限 ”贺年 


图 13-35 _ CNKI 中 国学 术 期 刊 网 专业 检索 实例 


(5) CNKI 中 国学 术 期 刊 网 作者 发 文 检 索 。 为 了 追踪 某 一 专家 学 者 的 学 术 成 果 ( 有 些 
专家 一 生 可 能 在 多 个 单位 工作 过 ) ,以 便于 发 现 其 研究 动向 ,横向 或 纵向 比较 同 领域 研究 
者 的 学 术 动 态 ,“ 作 者 发 文 检索 ” 则 提供 了 有 益 的 辅助 功能 。 见 图 13-36。 

(6) CNKI 中 国学 术 期 刊 网 科研 基金 检索 。 一 般 学 术 研 究 ( 包 括 基础 性 研究 或 应 用 性 
研究 ) 都 受到 一 定 机 构 或 不 同 级 别 的 专门 科研 基金 资助 ,以 保障 研究 项 目 与 项 目 任务 的 顺 
利 完成 ,因此 可 以 用 “科研 基金 "途径 检索 学 术 论 文 ,检索 时 直接 输入 基金 名 即 可 。 在 不 清 
楚 具 体 基 金 名 称 时 ,可 利用 基金 分 类 目录 查询 。 见 图 13-37。 

(7) CNKI 中 国学 术 期 刊 网 句子 检索 与 来 源 期 刊 检索 。 在 检索 学 术 论 文 的 全 文 时 ,如 
果 没 有 明确 的 主题 词 和 关键 词 作为 检索 项 ,可 以 用 句子 (或 一 句 话 ) 作 为 整体 检索 项 。 句 
子 检索 最 多 可 容纳 四 个 句子 ,在 全 文中 是 否 在 “同一 句 "或 “同一 段 "。 见 图 13-38。 

来 源 期 刊 检索 是 依据 学 术 论文 发 表 和 登载 的 具体 期 刊 类 型 来 筛选 论文 信息 ,默认 为 
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答案 高 级 检 索 。 ”专业 检索 。 | 作者 发 立柱 过 科研 基 全 检索 | ”句子 检索 “| 来源 央 刊 检索 
作者 姓名 : | 入 入 作者 姓名 贰 确 图 

第 一 作者 姓名 : | 绩 入 作者 姓 所 模 稳 图 

日 作者 单位 : | 输入 作者 单位 ， 全 称 、 简 称 、 首 用 名 均 可 模糊 前 
作者 单位 : [ 病 入 作者 昌 位， 全称， 简称 、 革 用 名 均 可 模 秽 较 

作者 单位 本 向 国 

作者 单位 模 相 加 

荐 而 


图 13-36 CNKI 中 国学 术 期 刊 网 作者 发 文 检索 视图 


检索 项 ; [天 一 称 时 | 检索 启 : | | 
管理 机 构 : [7 限量 


口 国家 自然 科学 基金 口 国家 社会 科学 基金 


口 国家 高 技术 研究 发 展 计划 (563 计划 ) 口 国家 重点 基础 研究 发 展 计划 (973 计 划 ) 
口 基础 研究 重大 项 目前 期 研究 专项 口 本 登 计划 


口 国家 科技 支撑 计划 口 国家 科技 攻关 计划 


口 国家 重点 实验 室 建设 项 目 计划 口 软 件 开发 环境 国家 重点 实验 室 (北京 航空 航天 大 学 ) 开 放 课 题 基金 
共有 记录 997 条 首页 上 页 下 页 未 页 [i] 


检索 高 伯 检 索 专业 检索 。 | 作者 发 文 检索 | 科研 基金 检索 | 句子 检索 。 | 来 源 骨 刊 术 索 
日 。 在 全 文 | 同 - 句 国 | 话 中 ,全 有 和 的 文章 
或 者 国 | 在 全 文 | 同 - 段 国 | 话 中 , 合 有 和 的 文章 
检索 


图 13-38 ”CNKI 中 国学 术 期 刊 网 句子 检索 视图 


全 部 期 刊 。 例 如 ,限定 来 源 期 刊 类 别 为 *SCI 来 源 期 刊 ? 和 “CSSCI”, 也 就 大 致 确定 了 结果 
论文 的 等 级 与 参考 价值 。 见 图 13-39。 


13.3.2 维普 中 文科 技 期 刊 数据 库 检 索 
维普 4 中文 科技 期 刊 数据 库 光 简称 维普 期 刊 数 据 库 ? 是 由 国家 科技 部 西南 中 心 研 制 开 
发 的 我 国 第 一 个 海量 期 刊 数据 库 , 它 主要 收集 我 国 公开 或 非 公开 发 行 的 各 种 期 刊 ,该 库 已 
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期 乔 ~T 


检索 高 级 检索 专业 检索 作者 发 文 检索 。 科研 基金 检索 句子 检索 。 未 源 期 刊 检索 
来 源 类 别 : 厂 全 部 期 刊 万 SC! 来 源 期 刊 厂 El 来 源 期 刊 厂 核心 期 刊 网 CSSCI 


来 源 期 刊 | 输入 期 刊 名 称 ，ISSN, CN 的 可 醒 秽 圈 [---] 
期 刊 年 期 : 从 | 不 限 图 年 到 | 不 限 贺年 指定 期 : | 请 输入 


图 13-39 CNKI 中 国学 术 期 刊 网 来 源 期 刊 检索 视图 


经 成 为 我 国 数字 图 书馆 建设 的 核心 资源 之 一 ,是 高 校 图 书馆 文献 保障 系统 的 重要 组 成 部 
分 ,也 是 高 校 师 生 、 科 研 工作 者 进行 科技 查证 和 科技 查 新 的 常用 数据 库 。 该 数据 库 涵盖 期 
刊 总 数 为 12 000 余 种 ,其 中 核心 期 刊 1810 种 ,目前 提供 服务 的 全 文 文献 总 量 达 5000 多 万 
篇 ,数据 更 新 周期 为 每 周一 次 ,每 年 的 数据 增 量 达 300 万 篇 。 采 用 国际 通用 的 高 清晰 PDF 
全 文 数 据 格式 处 理 数据 ,为 读者 提供 八大 类 学 术 期 刊 论文 服务 , 即 社会 科学 、 自 然 科学 、 工 
程 技术 ,农业 科学 、 医 药 卫 生 、 经 济 管理 .教育 科学 和 图 书 情报 。 

(1) 维普 期 刊 数据 库 的 一 般 检索 。 直 接 输 入 检索 词 ( 主 题词 .关键 词 . 作 者 、 刊 名 等 ) 
即 可 。 一 般 检 索 界 面 见 图 13-40。 


MA 


搜索 5000 祭 万 扁 期 刊 文章 ， 挖 扬 作 者 、 机 构 、 主 题 、 资 助 等 海量 知识 对 多 


图 13-40 ”维普 期 刊 数据 库 的 一 般 检 索 界面 


(2) 维普 期 刊 数据 库 高 级 检索 。 可 以 使 用 最 多 五 个 检索 项 进行 逻辑 组 配 检索 ,同时 
可 以 限定 期 刊 论文 的 时 间 段 、 更 新 时 间 和 来 源 期 刊 范围 (例如 核心 期 刊 .SCI 来 源 期 刊 
等 ) ,以 提高 学 术 论 文 检索 的 返回 结果 精度 。 高 级 检索 界面 见 图 13-41。 

(3) 维普 期 刊 数据 库 专业 检索 式 检索 。 专 业 检索 式 检索 与 CNKI 期 刊 数据 库 的 原理 
相似 ,检索 是 AND 代表 “并 且 ”,OR 代表 “或 者 ”, NOT 代表 “不 包含 "(注意 必须 大 写 , 运 
算 符 两 边 需 空 一 格 ) 。 例 如 ,需要 C++ 或 Basic 方面 且 是 计算 机 应 用 与 软件 属性 的 信息 ， 
但 是 Visual 方面 的 除外 , 则 检索 表达 式 为 : J 王 计算 机 应 用 与 软件 AND (U=C++ OR U 
一 Basic) NOT M 王 Visual。 见 图 13-42 。 
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高 级 检索 检索 式 检索 


区 | 


| = 题名 或 关 妇 局 


| 与 -| | A= 作 者 - 区 
[ER -] 


1 


| 或 “| | 工 基 多 资助 
EE -|[ 入 和 -] 
EE ET me -三 本 一 | 


时 间 限 定 


二 


期 刊 范围 


口 全 部 期 刊 回 核心 期刊 口 E 张 潭 期 刊 口 SCE 源 由 刊 上 CA5 来 源 期 刊 口 CSCD 来 源 期 刊 口 CSSCEk 淹 其 刊 


图 13-41 维普 期 刊 数 据 库 高 级 检索 界面 


高 级 检索 | 检索 式 析 索 区 ] 


检索 规则 说 明 ; AND 代 表 " 并 且 "; OR 代表 或者"; NOT 代 表 "不 包含 "; (注意 必须 大 写 ,运算 符 两 边 需 空 一 格 ) 
检索 范例 : 范例 一 :(K= 图 书馆 学 OR K= 情 报 学 ) AND A= 范 并 思 范例 二 ; ]= 计 算 机 应 用 与 软件 AND (U=C++ 
OR U=Basic) NOT M=Visual 


J= 计 算 机 应 用 与 软件 AND (U=C++ OR U=Basic) NOT M=Visua]| | 


@ 时 间 :| 1989 “|-| 2016 -| OF:| 


期 刊 范围 


口 全 部 期 和 口 核心 期 刊 口 E 环 源 期 刊 口 SC 张 源 期 刊 口 CA5 来 源 期 刊 口 CSCD 来 源 期 刊 口 CSSCI 末 源 期 


图 13-42 维普 期 刊 数据 库 专 业 检索 式 检索 界面 
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13.4 典型 外 文 电子 图 书 检索 系统 


13.4.1 CADAL 外 文 图 书 检索 

大 学 数字 图 书馆 国际 合作 计划 (China Academic Digital Associative Library， 
CADAL) 前 身 为 高 等 学 校 中 英文 图 书 数字 化 国际 合作 计划 (China-America Digital 
Academic Library,CADAL)。 项 目 由 国家 投资 建设 ,作为 教育 部 “211” 重 点 工程 ,由 浙江 
大 学 联合 国内 外 的 高 等 院 校 . 科 研 机 构 共 同 承担 。 项 目 负 责 人 为 浙江 大 学 潘 云 稚 院士 。 
CADAL 一 期 建设 完成 100 万 册 ( 件 ) 数 字 资 源 ,CADAL 二 期 建设 完成 150 万 册 ( 件 ) 数 字 
资源 ,包括 外 文 图 书 55 万 册 , 系 统 服务 网 址 为 : http://www. cadal. cn/ 。 

在 检索 时 可 以 用 “ 搜 全 部 ”“ 仅 搜 书 名 ”“ 仅 搜 作 者 ”和 “搜索 词 完 全 匹配 ”四 种 形式 进 
行 检索 限定 。 例 如 用 “from china” 作 为 检索 词 进行 模糊 查询 ,可 以 检索 到 相关 书籍 683 
种 ,实例 如 图 13-43 所 示 。 


water energy products developnent study extraction studies 


sections selected 


图 13-43 CADAL 外 文 图 书 检索 实例 


读者 可 以 在 检索 结果 排序 中 选择 需要 阅读 的 “图 书 封面 图 标 ”, 直接 在 线 阅 读 电子 图 
书 全 文 内 容 或 者 借阅 纸 质 印刷 版 图 书 。 


13.4.2 世界 电子 图 书馆 检索 
世界 电子 图 书馆 (World eBook Library, WelL) 是 世界 公共 图 书馆 联盟 (World Public 
Library Association, WPLA) 的 电子 图 书 项 目 .WPLA 成 立 于 1966 年 ,网 址 为 : http:// 
www. ebooklibrary. org/ ,是 非 营 利 性 的 世界 组 织 。 世 界 电子 图 书馆 是 世界 最 大 的 电子 书 
提供 商 , 不 属于 任何 机 构 或 者 部 门 ,资源 收集 来 源 于 世界 20 万 家 出 版 机 构 的 电子 文献 。 
世界 电子 图 书馆 的 资源 内 容 覆 盖 了 31 个 学 科大 类 ,共计 152 个 学 科 种 类 (如 文学 、. 历 
史 .政治 .社会 学 教育、 经济 法律、 戏剧 等 学 科 ) ,以 人 文 社会 科学 为 主 ,还 包括 自然 科学 、 
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农学 、 医 学 .工程 技术 等 领域 的 经 典 文 学 作品 ,书籍 期刊. 百科 全 书 、 字 典 . 手 册 等 参考 资 
源 , 共 有 全 球 260 多 种 语言 的 超过 340 万 册 PDF 格式 电子 图 书 与 23 000 多 种 有 声 读物 。 
WeL 外 文 电子 图 书 普通 检索 视图 见 图 13-44。 


Where the World Goes to Read 
WORLD eBOOK LIBRARY My Dashboard Ger Publlahed 

Home Books’ Search Support* About Us， Get Published» 

MostPopular NewReleases TopPicks Kid25's | Seardh 


了 How-To Tutorials WeL 


Kobo eBooks 
Devices Tutorial 


图 13-44 WeL 外 文 电子 图 书 普通 检索 视图 


WeL 特色 专集 值 一 : Graphic Novel Collection 图 像 小 说 专集 。《 大 英 百 科 人 全书) 对 图 
像 小 说 的 定义 是 : 图 像 小 说 ,在 美国 和 英国 的 用 法 中 , 指 一 种 联合 了 文字 与 图 片 一 一 漫画 
图 片 的 文本 。 对 比 “ 漫 画 (Comic)”,“ 图 像 小 说 通常 是 指针 对 成 年 读者 的 长 篇 漫画 叙事 ， 
以 精装 或 者 平装 书籍 出 版 并 用 过 书店 销售 , 它 探 讨 严 肃 的 文学 性 主题 ,并 且 绘 制 精美 ”。 
WeL 的 Graphic Novel Collection 中 主要 包括 三 种 类 型 的 资源 ,而 不 仅 限 于 上 述 严 格 意 义 
上 的 图 像 小 说 : 针对 年 轻 读者 的 插图 小 说 .科幻 冒险 图 像 小 说 (Sci-Fi and Adventure) 及 
漫画 (Comic) ,资源 数量 超过 11 000 册 。 

Wel 特色 专集 之 二 : 经 典 原 著 。2005 年 ,世界 上 最 大 的 提供 文献 信息 服务 的 机 构 之 
一 OCLC(Online Computer Library Center, Inc. , 即 联机 计算 机 图 书馆 中 心 ) 通 过 对 其 
56 000 家 联盟 成 员 馆 的 馆藏 资源 进行 调查 分 析 , 得 出 了 一 份 "TOP 1000” 图 书 名 单 ,这 份 
名 单 上 的 图 书 资源 被 认为 是 值得 世界 上 所 有 图 书馆 收录 的 永恒 经 典 (“Timeless 
Classics”) 。WeL 中 包含 了 列表 中 70% 以 上 的 图 书 资源 ,同时 还 提供 超过 10 000 种 类 似 
的 图 书 供 阅 读 。 

WeL 特色 专集 之 三 : 创新 。 科 学 研究 的 目的 在 于 通过 科学 研究 发现” 或 者 “创造 ”， 
以 达到 “改变 ”世界 的 目的 , 即 “ 创 新 ”, 创 新 不 仅 是 科学 研究 的 目的 ,也 是 其 灵 瑰 。 科 学 研 
究 成 果 的 创新 性 内 容 是 其 重要 的 评价 标准 。Wel 数据 库 拥有 超过 400 余 种 “Innovation” 
相关 电子 图 书 与 11 000 余 种 “Innovation” 相 关 文 献 。 
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WeL 特色 专集 介绍 之 四 : 参考 工具 书 。WeL 中 收录 了 上 万 本 的 参考 工具 书 (字典 、 
词典 传记、 百科 全 书 . 手 册 等 ) ,例如 人 《大英 百科 全 书 》(Exzcyclopedia Britannica)《 汉 英 
双语 词典 》(ChineseEnglish Dictionary)、《 布 莱恩 画家 和 有 雕刻 家 词典 》(Bryan”s 
Dictionary of Painters and Engravers) 等 。 

WeL 支持 快速 检索 与 高 级 检索 两 种 检索 方式 ,也 可 选择 系统 推荐 的 检索 表达 式 快速 
检索 到 所 需 资源 。 检 索 结 果 按 照 作者 、 学 科 、 出 版 社 语 言 . 文 件 格 式 以 及 专题 进行 聚 类 ， 
可 快速 定位 所 需 文献 。 

WeL 外 文 电子 图 书 高 级 检索 包括 的 字段 有 所 有 字段 、 题 名 、 作 者 、 学 科 和 出 版 社 , 同 
时 可 以 限制 出 版 时 间 、 图 书 语言 .文件 格式 、 学 科 分 库 、 主 题 分 库 等 图 书 范围 ,支持 关键 词 
检索 、 精 确 检 索 和 人 逻辑 检索 。 高 级 检索 视图 见 图 13-45 。 


Find books that have... 
Everything: L Ml These Words 司 
Te IThese Words | 
Author ll These Words 司 
Subject: ll These Words > 
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File Type: [Select File Types... 二 攻 - 
Academic Collection: [Select Academic Collection,.. 可 
eBook Library Collection: [Select eBook Ubrary Collections... 


图 13-45 ”Wel 外文 电 子 图 书 高 级 检索 视图 


在 校园 网 内 的 大 学 生 用 户 , 可 以 无 限制 地 阅读 、 下 载 甚 至 可 以 非 商 业 目 的 打印 整 本 电 
子 书 , 且 所 下 载 的 电子 图 书 文件 可 永久 保存 :读者 在 WeL 中 注册 后 ,可 使 用 系统 的 “我 的 
阅读 历史 ”“ 我 的 书 单 “ 上 传 电子 图 书 ” 等 个 性 化 服务 功能 ;通过 社区 功能 ,可 以 阅读 和 
分 享 书评 、 添 加 评论 等 。 所 有 电子 资源 都 采用 PDF/Mp3/Mp4 格式 ,安装 PDF 阅读 器 (如 
Adobe Reader) 与 Mp3/Mp4 播放 器 即 可 打开 资源 内 容 。 


13.4.3 ”ebrary( 电 子 图 书馆 ) 检 索 

ebrary 公司 于 1999 年 2 月 正式 成 立 , 由 McGraw-Hill Companies、Pearson plc 和 
Random House Ventures 三 家 出 版 公司 共同 投资 组 建 。ebrary 电子 图 书 数据 库 整合 了 来 
自 500 多 家 学 术 、 商 业 和 专业 出 版 商 的 权威 图 书 和 文献 ,覆盖 商业 经 济 、 社 科 人 文 、 历 史 、 
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法 律 计算机、 工程 技术 .医学 等 多 个 领域 。 截 至 2015 年 3 月 ,ebrary 的 综合 学 术 类 收藏 
(Academic Collection) 中 已 包含 了 12. 4 万 多 册 图 书 。 

登录 个 人 账号 之 后 , 才 可 按 章节 下 载 ,或 按 页 码 下 载 ,还 可 以 下 载 全 文 ,所 下 载 的 全 文 
需要 使 用 Adobe Digital Editions 工具 阅读 。 未 注册 用 户 可 单 击 页 面 右上 角 的 “Sign in”， 
再 单 击 “Create an account”, 自 行 注册 设置 用 户 名 和 密码 。 

ebrary 是 一 个 高 度 交 互 式 的 电子 图 书 集合 ,阅读 ebrary 资源 需要 下 载 ebrary Reader 
专门 阅读 器 。 图 13-46 是 用 关键 词 database 进行 检索 ,返回 结果 集 为 50 426 个 电子 书 
文档 。 


ldatabase 
Advanced 。 AlSublects 
| nenesuurs | CHAPTER RESULTS | SEARCHES 
v Focusyour search using: © Any of the selected subjects(eg Math OR Sclence) © All ofthe selected subjects(eg Math AND Sclence) 
DO Database Management DO study Guldes 口 apan 口 orade(computerFie) 
口 gxaminations 日 wos DD Database Design DD Application Software 
口 programming 日 ,bm Database 2 OD case studies D Microsoft Net 
DO Relational Databases 日 bata Processing D Development 
Eeard 
哪 5ave search ,HExport| 
View- LE Short 
Showing1-20of50426 documents Sort results by: Relevance | Title | Contributor | 
Database Management Systems 
kd Publisher Asian Books Pyt Ltd 
Date Published: 2010 
Subjects: Database management, 
Table of Contents| Download| Find Similar| EndNote G Citavi] Refworks| 
Add to Bookshetf| 


图 13-46 ebrary 普通 检索 实例 


对 于 需要 的 图 书 可 以 开展 在 线 阅读 .下 载 ,添加 到 书架 .近似 查找 .阅读 批注 、 参 考查 
阅 等 相关 学 习 行 为 。 

ebrary 高 级 检索 通过 “十 ”和 “一 ”控件 来 调节 检索 词 的 数量 ,高 级 检索 最 多 可 以 容纳 
九 个 检索 项 , 且 各 个 检索 项 之 间 在 关系 表达 上 为 “人 逻辑 与 "。 图 13-47 是 用 database、 
management 和 design 为 检索 词 进行 的 高 级 检索 实例 (要 求 database、management 出 现 
在 书 名 title 中 ,design 出 现在 主题 subject 中 ) 。 
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Click the "Search" button when you've finished describing your search. 


Search |Title 加 for |database 田 日 
in 

and |Title 加 for Imanagement 田 日 
in 

-and |Subject for lHesign 田 日 


in |Text and Key Fields 


Text i 
-and ST or 田 日 


in Te 
Author 
and |Publisher for 田 日 
in |DocID RE 
Dewey Decimal Number 
_and |ISBN for 田 日 
in |LC Call Number 
Publication Year 
_and |List Price for 田 日 
in Document Type 
Document Language 
_ and |Available Licenses for [| 田 日 
Collection i 
in 
~ and |Text and Key Fields 加 for 田 日 


图 13-47 ebrary 高 级 检索 实例 


13.4.4 ”OCLC FirstSearch 检索 

OCLC(Online Computer Library Center, Inc. ) , 即 联机 计算 机 图 书馆 中 心 ,总 部 设 在 
美国 的 俄亥俄 州 ,是 世界 上 最 大 的 提供 文献 信息 服务 的 机 构 之 一 , 它 是 一 个 非 营 利 的 组 
织 , 以 推动 更 多 的 人 检索 世界 上 的 信息 、 实 现 资源 共享 并 减少 使 用 信息 的 费用 为 主要 目 
的 。OCLC 的 FirstSearch 是 一 个 面向 最 终 用 户 设 计 的 交互 式 联机 信息 检索 系统 。 其 通 
用 检索 视图 见 图 13-48 。 

由 于 OCLC 存储 有 海量 数据 ,需要 用 户 在 输入 检索 词 时 ,同时 要 选择 具体 数据 库 , 然 
后 再 检索 ,这 样 会 大 大 减少 用 户 对 结果 的 评价 工作 量 。 进 行 高 级 检索 时 ,可 以 跨 库 检 索 ， 
最 多 选择 两 个 数据 库 ; 也 可 以 用 多 个 检索 词 进行 逻辑 组 配 ,构造 需要 的 检索 表达 式 , 进 行 
专家 检索 。 

例如 ,(au: Shak * not au: Shakespeare) not mt: juv and yr: 1999 and dt 二 “bks” 的 
含义 是 : 著者 名 字 以 “Shak” 开 头 , 但 不 是 “Shakespeare”, 不 归 类 于 期 刊 ,年 份 是 1999 年 ， 
限制 类 型 是 图 书 。 
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FirstSearch 


FirstSearch 首 页 
。 殉 名 使 用 DCLC FirstSearch 大 务 ,本 故 务 会 在 你 和 12 个 数 握 库 中 千 式 午 杆 主 题 的 信息 连 手 起 幸 。 
。 如 果 球 找 综合 性 的 数据 库 来 检索 . 迹 月 
AvticleFirst - = 不 这 二 | ECO - 区 刊本 | WoridCat - 方 晶 天 科 
|。 如 果 已 经 还 检 柠 保存 好 ,就 可 以 在 这 里 进行 存 取 -历次 检 替 
|。 如 困 已 保存 好 做 过 标记 的 记录 就 可 以 在 这 里 加 以 存 巾 :已 保存 的 记录 


十 划 要 看 | 交 的 账号 | 


选择 : 一 吉 主 攻击 六 所 = 
| 


跳 至 高 级 检索 : 


一 选择 数据 诛 加 以 检索 一 


图 13-48 OCLC FirstSearch 通用 检索 视图 


OCLC FirstSearch 可 检索 的 主要 图 书 数据 库 有 以 下 几 种 。 

(1) EBooks 电子 书 书目 数据 库 。Ebooks 收录 了 OCLC 成 员 图 书馆 编目 的 所 有 电子 
书 的 书目 信息 ,接近 1300 万 种 ,涉及 所 有 主题 ,涵盖 所 有 学 科 , 收 录 日 期 从 公元 前 1000 年 
至 今 。 数 据 更 新 频率 为 每 天 。 

(2) GPO 美国 政府 出 版 物 书目 数据 库 。GPO 美国 政府 出 版 物 数 据 库 (U. S. 
Government Printing Office) 由 美国 政府 出 版 署 创建 ,覆盖 从 1976 年 以 来 各 种 各 样 的 美 
国政 府 文件 ,包括 美国 国会 的 报告 .听证 会 辩论、 记录 ,司法 资料 以 及 由 行政 部 门 (国防 
部 、 国 务 院 、 总 统 办 公 室 等 ) 颁 布 的 文件 ,每 条 记录 包含 有 一 个 书目 引文 ,共有 60 多 万 条 记 
录 。 数 据 更 新 频率 为 每 月 。 

(3) WorldCat 联机 联合 目录 数据 库 。WorldCat 联机 联合 目录 数据 库 是 世界 上 最 大 
的 书目 记录 数据 库 , 包 含 OCLC 近 两 万 家 成 员 馆 编目 的 书目 记录 和 馆藏 信息 。 从 1971 年 
建 库 到 目前 为 止 , 共 收录 有 480 多 种 语言 总 计 达 20 亿 多 条 的 馆藏 记录 、3 亿 多 条 独 一 无 
二 的 书目 记录 ,每 个 记录 中 还 带 有 馆藏 信息 ,基本 上 反映 了 从 公元 前 4800 多 年 至 今世 界 
范围 内 的 图 书馆 所 拥有 的 图 书 和 其 他 资料 ,代表 了 四 千年 来 人 类 知识 的 结晶 。 文 献 类 型 
多 种 多 样 , 包 括 图 书 . 手稿. 地 图 .网 址 与 网 络 资源 .乐谱 、 视 频 资 料 . 报 纸 、 期 刊 与 杂志 、 
章 以 及 档案 资料 等 。 该 数据 库 平 均 每 十 秒 更 新 一 次 。 
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13.4.5 其 他 典型 外 文 电 子 图 书 检索 系统 简 述 

(1) Early English Books Online( 早 期 英文 图 书 在 线 , 简 称 EEBO)。 它 是 由 密歇根 大 
学 .牛津 大 学 和 ProQuest 公司 合作 开发 并 于 1999 年 推出 的 在 线 全 文 数据 库 。EEBO 收 
录 了 1473 一 1700 年 之 间 所 有 现存 的 英语 世界 出 版 物资 料 ,其 中 包括 许多 知名 作家 的 著 
作 , 例 如 莎士比亚 (Shakespeare) 、 马 洛 礼 (Malory) .斯 宾 塞 (Spencer) ,培根 (Bacon)、 葛 尔 
(Moore) 、 伊 拉 斯 浇 (Erasmus), 饮 尔 (Bauer) .牛顿 (Newton) 伽利略 (Galileo) 等 。 除 了 
收录 那个 时 期 的 大 量 文学 资料 外 ,EEBO 还 收录 许多 历史 资料 ,例如 皇家 条 例 及 布告 、 军 
事 、 宗 教 和 其 他 公共 文件 ,年 鉴 , 练 习 曲 、 年 历 、 大 幅 印 刷 品 、 经 书 \ 单 行 本 、 公 告 及 其 他 的 原 
始 资料 。EEBO 覆盖 历史 、 英 语文 学 .宗教 .音乐 .美术 .物理 学 .妇女 问题 研究 等 诸多 
领域 。 

(2) iG Publishing 电子 图 书 。iG Publishing 电子 图 书包 括 以 下 九 个 电子 图 书 数据 库 
中 的 图 书 、 工 具 书 ,都 由 行业 中 权威 学 会 或 出 版 社 出 版 。 读 者 可 直接 在 全 部 数据 库 中 一 并 
检索 ,也 可 分 别 进 入 具体 的 九 个 数据 库 中 浏览 及 检索 图 书 。 

Q@ 美国 材料 信息 学 会 (ASM International) 电 子 图 书 数据 库 : 美国 材料 信息 学 会 自 
1913 年 成 立 以 来 ,一 直 致 力 于 材料 科学 和 工程 专业 的 研究 发 展 。 

@ 英国 标准 学 会 (The British Standards Institution) 电 子 图 书 ( 手 册 ) 数 据 库 : 英国 
标准 学 会 是 世界 上 第 一 个 国家 标准 化 机 构 , 成 立 于 1901 年 ,总 部 设 在 伦敦 。 

@ 国际 工程 联合 会 (International Engineering Consortium,IEC) 电 子 图 书 数据 库 : 
美国 国际 工程 联合 会 成 立 于 1944 年 ,最 初 由 美国 各 大 学 和 工程 组 织 联合 发 起 ,专注 于 电 
子 工业 的 再 教育 。 

@ 美国 工业 出 版 社 (Industrial Press) 电 子 图 书 数据 库 : 从 1883 年 成 立 以 来 ,美国 工 
业 出 版 社 一 直 恪 守 其 出 版 传统 ,以 最 好 的 技术 为 教育 事业 提供 优秀 的 参考 书 。 

@ 美国 摩根 出 版 社 (Morgan & Claypool Publishers) 电 子 图 书 数据 库 : 出 版 社 成 立 
于 2002 年 ,其 出 版 的 综述 文集 (Synthesis ) 为 工程 .计算 机 科学 .生命 科学 领域 及 相关 领域 
(如 材料 、 能 源 、 环 境 等 ) 的 研发 和 教育 工作 者 提供 了 一 种 创新 型 的 信息 服务 。 

@ 英国 多 科学 出 版 有 限 公 司 (Multi Science) 电 子 图 书 数据 库 : 公司 成 立 于 1961 年 ， 
其 出 版 物 包括 三 个 学 科 领 域 : 能 源 、 声 学 和 工程 科学 。 

G@) 英国 皇家 建筑 学 会 (Royal Institute of British Architects, RIBA) 电 子 图 书 数据 库 : 
RIBA 是 英国 建筑 机 构 和 建筑 行业 的 专家 ,他 们 为 其 成 员 提 供 世 界 范围 内 的 各 种 培训 形 
式 .技术 服务 ,以 及 出 版 物 和 活动 ,并 为 在 英国 和 海外 的 建筑 师 教育 设 定 了 标准 。 
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美国 科学 技术 出 版 社 (SciTech Publishing) 电 子 图 书 数据 库 : 美国 科学 技术 出 版 
社 已 经 在 雷达 和 国防 电子 学 领域 成 为 了 全 球 出 版 领导 者 。 

@ 美国 工业 和 应 用 数学 学 会 (Society for Industrial and Applied Mathematics , 
SIAM) 电 子 图 书 数据 库 : SIAM 是 一 个 以 促进 应 用 和 计算 数学 的 研究 发展. 应 用 为 目的 
的 协会 。 

(3) Knovel。Knovel 是 一 个 统一 的 信息 平台 ,具有 强大 的 检索 和 分 析 功 能 ,目前 收录 
了 来 自 120 多 个 出 版 机 构 的 实践 经 验 、 验 证 的 方程 和 材料 及 物质 数据 ,可 以 帮助 用 户 快速 
找到 解决 技术 问题 的 答案 。Knovel 将 工程 学 和 应 用 科学 的 数据 信息 与 分 析 、 检 索 工具 整 
合 在 一 起 ,提供 “交互 式 ” 的 数据 分 析 功 能 ,从 而 让 数据 表格 及 图 表 “ 活 ”了 起 来 。 

(4) MyiLibrary。MyiLibrary 电子 图 书 平台 在 世界 范围 内 合作 的 出 版 商 超 过 400 家 ,其 
中 包括 世界 著名 的 学 术 出 版 商 和 出 版 社 , 如 Taylor&.Francis, Wil Balckwell, Oxford 
University Press,Cambridge University Press 等 。 该 平台 目前 包含 有 电子 书 12 000 多 
种 ,涉及 教育 .艺术 ,法律 .文学 、 医 学 .哲学 ,心理 学 .政治 学 .工程 技术 .自然 科学 .图 书馆 
学 等 领域 。 

该 平台 上 还 包括 培 生 教 育 出 版 集团 (Pearson Education Group) 出 版 的 982 种 电子 教 
材 全 文 ,内 容 涉及 数学 ,物理 、 化 学 .工程 .计算 机 科学 、 信 息 技术 . 生 物 学 ,心理 学 .社会 学 、 
法 律 .商业 管理 .经济 .市 场 营销 、 金 融 、 教 育 、. 就 业 指导 、 英 语 、 艺 术 等 学 科 。 培 生 教育 出 版 
集团 是 目前 全 球 最 大 的 教育 出 版 集团 ,这 些 电子 教材 是 该 集团 为 教育 部 外 国教 材 中 心 特 
别提 供 的 。 平 台 上 所 有 的 电子 书 可 进行 全 文 检索 ;还 可 按 关键 词 . 作 者 、ISBN、 出 版 年 、 学 
科 .语种 等 对 检索 结果 进行 限定 。 

(5) Safari。Safari 由 世界 两 大 著名 IT 出 版 商 O?Reilly & Associates,Inc. 和 The 
Pearson Technology Group 共同 组 建 ,主要 提供 IT 类 的 电子 图 书 , 其 中 ,95% 以 上 是 
2000 年 以 后 出 版 的 ,22% 的 书目 列 入 了 Amazon 书店 前 10 000 种 需要 的 图 书 清 单 中 。 

Safari 覆盖 的 主题 包括 Programming、Operating Systems、Networking 等 。 在 Safari 
中 可 以 按 主题 或 出 版 商 分 类 浏览 图 书 , 可 进行 高 级 检索 ,并 可 直接 定位 浏览 书 中 的 编程 信 
息 。 阅 读 全 文 时 可 由 检索 结果 中 的 “Table of Contents” 直 接 跳 到 书 中 章 或 节 , 也 可 单 击 
图 书 封面 ,再 选择 页 面 右 侧 的 “Start Reading” 从 头 开始 阅读 。 

(6) Wiley Online Library。John Wiley & Sons Inc. 是 有 200 多 年 历史 的 国际 知名 
专业 出 版 机 构 ,在 化 学 .生命 科学 、 医 学 以 及 工程 技术 等 领域 学 术 文 献 的 出 版 方面 颇具 权 
威 性 ,2007 年 2 月 与 Blackwell 出 版 社 合并 ,两 个 出 版 社 的 出 版 物 整 合 到 同一 平台 上 提供 
服务 。Wiley Online Library 是 一 个 综合 性 的 网 络 出 版 及 服务 平台 ,在 该 平台 上 提供 全 文 
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电子 期 刊 .在 线 图 书 、 在 线 参 考 工 具 书 以 及 实验 室 指南 。 

(7) World Bank E-library。 可 以 在 线 阅读 世界 银行 所 有 有 关 社 会 和 经 济 类 的 全 文 图 
书 \ 报 告 和 多 种 文件 。 它 带 给 读者 的 是 一 个 全 文 检索 和 多 重 查询 的 数据 库 。 迄 今 为 止 ,该 
在 线 图 书馆 已 提供 了 世界 银行 从 1987 年 以 来 出 版 的 4500 多 种 图 书 、 所 有 世界 银行 政策 
研究 工作 报告 和 各 种 文件 的 全 文 内 容 ,同时 介绍 即将 出 版 的 图 书信 息 等 。 每 年 新 增 
150~175 本 图 书 , 新 增 250 一 300 个 工作 报告 。 


13.5 典型 外 文学 术 期 刊 检索 系统 


13.5.1 Web of Science 数据 库 检索 

Web of Science 数据 库 收录 了 12 400 多 种 世界 权威 的 ,高 影响 力 的 学 术 期 刊 ,内 容 涵 
盖 自 然 科学 .工程 技术 .生物 医学 .社会 科学 .艺术 与 人 文 等 领域 的 海量 学 术 研 究 论文 ,最 
早 回溯 至 1900 年 。Web of Science 收录 了 论文 中 所 引用 的 参考 文献 ,并 按照 被 引 作者 、 
出 处 和 出 版 年 代 编制 成 独特 的 引文 索引 。 

1，Web of Science 数据 库 的 主要 构成 

Web of Science 是 获取 全 球 学 术 信 息 的 重要 数据 库 , 由 以 下 几 个 重要 部 分 组 成 。 

(1) Science Citation Index 一 Expanded (SCIE ,科学 引文 索引 ) 。 

(2) Social Sciences Citation Index (SSCI, 社 会 科学 引文 索引 ) 。 

(3) Arts & Humanities Citation Index (A&HCI, 艺 术 人 文 引 文 索 引 )。 

(4) Conference Proceedings Citation Index (CPCI, 会 议论 文 引 文 索引 ) 。 

(5) Current Chemical Reactions 收录 了 1840 年 以 来 的 化 学 反应 的 事实 性 数据 。 

(6) Index Chemicus 收录 了 1993 年 以 来 的 化 学 物质 的 事实 性 数据 。 

2. Web of Science 数据 库 检索 与 利用 的 主要 作用 

Web of Science 作为 全 球 权威 的 引文 数据 库 , 广 泛 收录 了 世界 一 流 的 学 术 研 究 成 果 。 
其 强大 的 分 析 功 能 ,更 能 够 在 快速 锁定 高 影响 力 论 文 、 发 现 国内 外 同行 权威 所 关注 的 研究 
方向 .揭示 课题 的 发 展 趋势 .选择 合适 的 期 刊 进 行 投稿 等 方面 帮助 研究 人 员 更 好 地 把 握 相 
关 课 题 ,寻求 研究 的 突破 与 创新 点 。 

(1) 随时 掌握 课题 的 最 新 进展 。 

(2) 了 解 相关 领域 中 最 具 影 响 力 的 研究 人 员 。 

(3) 对 著作 中 重要 理论 的 发 展 和 应 用 进行 跟踪 。 

(4) 选择 合适 的 学 术 期 刊 发 表 论 文 。 
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(5) 寻找 合作 研究 者 或 深造 机 会 。 

(6) 准确 查找 论文 的 被 引用 情况 。 

(7) 按照 所 投稿 期 刊 的 格式 快速 生成 参考 文献 。 

(8) 在 网 络 平台 上 建立 个 人 图 书馆 。 

3. Web of Science 基本 检索 

所 有 成 功 的 检索 均 添 加 至 检索 历史 表 。 在 创建 检索 式 时 ,需要 遵循 所 有 适用 的 检索 
规则 。 可 以 在 “检索 ”页 面 中 最 多 选择 三 个 字段 作为 默认 检索 字段 。 在 检索 式 中 最 多 可 输 
入 6000 个 检索 词 。 添 加 新 的 字段 还 会 将 第 二 个 字段 设置 为 AND 运算 符 ,可 以 将 AND 
运算 符 改 为 OR 或 NOT。 用 于 检索 的 基本 字段 有 主题 .标题 .出 版 物 名 称 、. 作 者 、 编 者 、 出 
版 年 等 。 基 本 检索 视图 见 图 13-49 。 


检索 Web of Science TW 核心 合集 图 
对 辽 他 万 全 所 的 Web of 
基本 检索 
© | | 主题 ~ 
IAND ~ 回 标题 ~ 
|auo ~ M jncef 人 @ | | 出 版 徊 名 称 S | as | 
+ 添加 另 一 字 及 | 清除 所 有 字 眉 * 从 索引 中 选择 


图 13-49 Web of Science 基本 检索 视图 


在 基本 检索 时 ,默认 检索 字段 数 为 1, 用 户 随时 可 以 使 用 “添加 男 一 字段 ”添加 更 多 的 
检索 字段 ,或 者 可 以 从 “检索 ”页 面 删除 检索 字段 。 一 个 检索 字段 : 默认 字段 始终 为 “ 主 
题 ”, 随 时 可 以 选择 不 同 的 检索 字段 。 三 个 检索 字段 : 默认 字段 始终 是 “主题 "“ 作 者 ”和 
“出 版 物 名 称 ”。 添 加 另 一 字段 : 默认 字段 始终 为 “主题 ”, 随 时 可 以 选择 不 同 的 检索 字段 。 

基本 检索 方法 如 下 。 

(1) 在 大 多 数字 段 输入 两 个 或 两 个 以 上 相 邻 的 检索 词 时 ,产品 会 使 用 隐 含 的 AND。 
例如 ,在 “主题 "或 “标题 "检索 时 输入 rainbow trout fish farm 与 输入 rainbow AND trout 
AND fish AND farm 是 等 效 的 ,这 两 个 检索 式 会 返回 相同 数量 的 检索 结果 。 

(2) 如 果 要 更 改 检索 设置 (包括 不 同 数 据 库 选择 ) ,请 转 至 检索 页 面 的 时 间 跨 度 和 更 
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多 设置 部 分 。 

(3) 在 一 个 或 多 个 检索 字段 中 输入 检索 词 。 在 执行 检索 时 ,也 可 以 使 用 如 下 选项 。 

J@ 添加 另 一 字段 链接 用 于 向 “基本 检索 ”页 面 添加 更 多 的 检索 字段 。 

@ 重 置 表单 链接 用 于 清除 已 输入 的 任何 检索 式 。 此 操作 将 检索 页 面 重 置 为 原始 检 
索 字 段 ,适用 于 “作者 ”检索 和 “被 引 参 考 文献 "检索 。 

@ 从 索引 选择 链接 用 于 在 执行 “出 版 物 名 称 ” 或 “作者 ”检索 时 选择 一 个 项 目 。 

@ 自动 建议 的 出 版 物 名 称 选项 用 于 打开 或 关闭 出 版 物 名 称 的 自动 建议 。 当 开启 此 
功能 时 ,产品 根据 用 户 在 检索 字段 中 输入 的 字符 提供 出 版 物 名 称 的 列表 。 例 如 ,如 果 您 输 
入 CANC, 则 产品 显示 以 这 四 个 字符 开头 的 出 版 物 列 表 , 如 Cancer Biology Therapy 和 
Cancer Investigation 。 

@ 显示 的 默认 检索 字段 数 选项 允许 仅 选择 “主题 "字段 ,或 者 可 以 选择 “主题 "、“ 作 
者 ”和 “出 版 物 名 称 ” 字 段 。 保 存 设置 选项 用 于 保存 您 的 设置 以 供 将 来 的 检索 会 话 使 用 。 

4. Web of Science 高 级 检索 

基本 方法 是 在 每 个 检索 式 编 号 前 输入 数字 符号 (# ) ,检索 式 组 配 中 包括 布尔 运算 符 
(AND、OR、NOT) ,使 用 括号 可 以 改写 运算 符 优先 级 。 如 表 13-1 所 示 。 


表 13-1 Web of Science 高 级 检索 举例 


检索 式 检索 结果 完整 检索 式 
#3 727 #2 AND #1 
#2 1 125 241 AD= (Japan OR Russia) 
#1 31 082 TI= (cell death OR apoptosis) 


表 13-1 中 ,检索 式 #3 找到 的 记录 在 “标题 * 中 出 现 cell death 或 apoptosis, 并 且 " 地 
址 ”字段 中 出 现 Japan 或 Russia。 

Web of Science 高 级 检索 类 似 于 其 他 检索 系统 的 “专业 检索 ”, 需 要 对 复杂 检索 需求 
进行 逻辑 检索 式 构造 。 主 要 字段 标识 : AD 王 地址 ,AI 王 作者 标识 符 ,AU 王 作者 ,CF 王 会 
议 ,CI= 城 市 ,CU= 国 家 /地 区 ,DO==DOI,ED= 编 者 ,FG 二 授权 号 ,FO 二 = 基金 资助 机 构 ， 
FT= 基 金 资 助 正 文 ,GP== 团 体 作者 ,IS==ISSN/ISBN,00== 组 织 ,PY== 出 版 年 ,SO= 出 
版 物 名 称 ,SU== 研 究 方向 ,TI 二 标题 ,TS 二 主题 ,WC 二 Web of Science 类 别 。 高 级 检索 实 
例 见 图 13-50。 

在 某 一 研究 方向 领域 检索 。 在 高 级 检索 中 使 用 SU 字段 标识 以 查找 研究 方向 检索 
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高 级 检索 


人 布尔 运算 符 、 括 号 和 检索 结果 集 来 创建 检索 式 。 结 果 显 示 在 页 面 度 部 的 " 粕 索 历史 " 中 。( 了 解 高 
) 


示 并 TS=(nanotub* AND carbon) NOT AU=Smalley RE 
#1 NOT #2 策 多 示 阮 | 查看 教程 


ITS=(nanotub* AND carbon) NOT AU=Smalley RE 
#1 NOT #2 


和 


English 
Aifrikaans 
Arabic 


Artc le 
Abstract of Published Item 
Art Exhibit Review 


上 一 由: 


苔 VB 


图 13-50 ”Web of Science 高 级 检索 实例 图 


词 ,将 检索 范围 缩小 至 特定 研究 领域 。 例 如 ,SU 三 (Biochemistry & Molecular Biology 
AND Biophysics) 可 查找 在 全 记录 的 “研究 方向 "字段 中 同时 出 现 检索 式 里 的 这 两 个 研究 
方向 的 记录 。 

在 某 一 类 别 方面 检索 。 使 用 Web of Science 类 别 以 及 高 级 检索 的 WC 字段 标识 ,将 
检索 范围 缩小 至 特定 研究 领域 。 例 如 , WC 二 (Anthropology AND Archaeology) 可 查找 
在 全 记录 的 “Web of Science 类 别 ? 字 段 中 同时 出 现 检索 式 里 的 这 两 个 类 别 的 记录 。 


13.5.2 IEL 数据 库 检索 

IEL 的 全 称 为 [EEE/IET Electronic Library, 它 是 IEEE 旗下 最 完整 .最 有 价值 的 在 
线 数字 资源 ,通过 智能 的 检索 平台 (http://ieeexplore. ieee. org/Xplore) 为 用 户 提供 创新 
的 文献 信息 。 其 权威 的 内 容 履 盖 了 电气 电子 、 航 空 航天 、 计 算 机 、 通 信和 工程 .生物 医学 工 
程 、 机 器 人 自动 化 、 半 导体、 纳米 技术 、 电 力 等 各 种 技术 领域 。IEL 数据 库 提 供 IEEE( 电 气 
电子 工程 师 学 会 ) 和 IET( 国 际 工程 和 技术 学 会 ) 出 版 的 以 下 几 类 刊物 的 全 部 资源 。 

(1) 170 余 种 IEEE 、20 余 种 IET 期 刊 与 杂志 、1 种 BLTJ 期 刊 , 总 数 达 400 多 种 (包括 
过 刊 及 更 名 刊 )。 

(2) 每 年 1400 多 种 IEEE 会 议 录 和 20 多 种 IET 会 议 录 ,总 量 超过 17000 卷 。 

(3) 60 多 种 VDE 会 议 录 ,超过 4500 篇 。 

(4) 2600 多 种 IEEE 标准 (包括 现行 标准 和 存档 标准 ,标准 草案 需 额外 订购 )。 

(5) 390 多 万 篇 全 文 文档 ,提供 1988 年 以 后 的 全 文 文献 ,部 分 历史 文献 回溯 到 
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L872 年 : 

IEL 每 月 增加 25 000 篇 最 新 文献 , 且 每 年 IEEE 还 有 新 的 出 版 物 加 入 到 IEL 中 。 据 
ISI 每 年 的 期 刊 引用 报告 ,IEEE 连续 高 居 众 多 技术 领域 的 前 列 。IEEE 出 版 物 是 电气 和 
电子 工程 领域 最 重要 的 文献 资料 , 约 占 全 世界 该 领域 核心 文献 的 30%% 。 

1. IEL 数据 库 基本 检索 

直接 输入 检索 的 主题 词 或 关键 词 (例如 page ranking) ,如 果 是 学 校 的 校园 网 用 户 ,无 须 
注册 可 直接 检索 ,同时 在 检索 界面 的 顶部 正中 央 会 出 现 高 校 名 称 , 如 图 13-51 所 示 来 自 “ 桂 
林 电 子 科 技 大 学 ”(GuiLin University Of Electronic Technology) 的 合法 用 户 。 


IEEE Xplore* SUUNUNVERSIY OF ELECTRONC $IEEE 
Digital Librory TG 


sv GETHELP Y 


图 13-51 IEL 数据 库 基本 检索 实例 


在 基本 检索 (basic search) 界 面 中 ,显示 了 当前 的 信息 资源 总 量 为 3 975 758 项 (截止 
到 2016 年 7 月 ), 同 时 表明 检索 途径 丰富 ,包括 作者 检索 .出 版 项 检索 ,高 级 检索 以 及 其 他 

在 资源 类 型 与 范围 方面 ,展开 BROWSE 可 以 选择 其 中 任意 一 种 资源 类 型 : 图 书 与 电 
子 书 、 会 议 出 版 物 、. 课 程 、. 期 刊 杂志 、 标 准 和 热点 导航 。 

2. IEL 数据 库 著 者 检索 与 出 版 项 检索 

著者 检索 可 以 用 著者 的 家 族 名 (family name) 、 姓 (last name) 、 名 (surname)。 著 者 检 
索 可 以 聚 类 考查 某 一 学 者 或 专家 的 总 体 研 究 情 况 和 最 新 研究 趋势 ,也 便于 与 其 合作 与 交 
流 。 出 版 项 检索 需要 用 出 版 物 的 卷 (volume) 、 期 (issue) 或 开始 页 (start page) 进 行 检索 。 

3. IEL 数据 库 高 级 检索 

IEL 数据 库 高 级 检索 包括 三 种 类 型 : 关键 词 或 短语 检索 、 命 令 检索 和 索引 检索 。 关 
键 词 或 短语 检索 类 似 于 中 文 数据 库 的 关键 词 与 主题 检索 ,命令 检索 类 似 于 专业 检索 。 

(1) 关键 词 或 短语 检索 。 第 一 ,输入 关键 词 或 短语 (默认 为 两 个 ) ,可 以 实际 检索 需要 
通过 Add New Line 增加 检索 输入 项 ,也 可 以 通过 删除 按钮 或 Reset All 来 调整 检索 项 数 
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量 。 第 二 ,选择 资源 范围 ,包括 元 数据 (在 字段 中 查询 ) .全 文 或 元 数据 (可 以 模糊 查询 全 文 
内 容 )。 第 三 ,选择 多 个 关键 词 与 短语 之 间 的 逻辑 运算 关系 (AND、OR、NOT)。 第 四 , 指 
定 每 个 检索 词 的 字段 项 (Authors ISSN 等 )。IEL 数据 库 的 高 级 关键 词 与 短语 检索 视图 
见 图 13-52。 


MY SETTINGS v GETHELP VY 


Document Title 


Advanced Search Options Authors 
Publication Title 
Author Affiliations 
Accession Number 


Abstract 
ENTER KEYWORDS OR PHRASES, SELECT FIELDS, AND SEIArticle Number 


Mole Rehesn page to eflect updated preferenoes Author Keywords 
DOE Terms 

Search: OMetadata Only OFull Text & Metadata Dol 
Standards ICS Terms 


IEEE Terms 
IN|INSPEC Controlled Terms 
INSPEC Non-Controlled Terms 


AND 国 in|iseN 外 四 
ISSN por 

oR injissue x 
国 MeSH Terms 由 W 

oR 国 in|PACS Terms 外 四 


Parent Publication Number 
Publication Number 


AND 图 In|standard Number EE 
Standards Dictionary Terms Ee 

AND 国 in|Topic [IE 
Article Page Number 本 

AND 图 in | Metadata Only 加 这 


Em Cn 
图 13-52 IEL 数据 库 的 高 级 关键 词 与 短语 检索 视图 


(2) 命令 检索 。Command Search 主要 采用 比较 规范 的 检索 命令 用 逻辑 运算 符 
(AND.OR NOT .NEAR .ONNEAR) 将 检索 项 组 配 起 来 ,构成 一 致 的 检索 表达 式 。IEL 
数据 库 的 命令 检索 实例 见 图 13-53。 

IEL 数据 库 的 命令 检索 形式 ,例如 , Abstract": ofdm AND " PublicationTitle": 
communications;" Author":"Suzuki, T";(java or XML) AND "software engineering"; 
security NEAR/5 "cloud computing";" Fast" ONEAR/5 "Statistic” AND "Document 
Title" : "Fast";(("Abstract": java) OR "Publication Title": "computer technology") 
AND "Document Title": rfid。IEL 数据 库 命令 检索 的 更 多 形式 可 以 进一步 参考 链接 
http://ieeexplore. ieee. org/ Xplorehelp/ Help_searchexamples. html, 


(3) 索引 检索 。 可 以 直接 在 数字 对 象 唯一 标识 符 (digital object unique identifier) 输 
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Command Search Citation Search Preferences 


Search: OMetadata Only OFull Text & Metadata 


Data Flds ) Opemors 了 


SEARCH GUIDELINES 
Operators need to be in al caps — 
ie AND/ORINOTINEAR. 


|Fasr ONEAR/5 "Statistic] ImentTile~Fasf 


OR 


Asterisk widcards cannot be used 
within quotes or with the 
NEAR/ONEAR operators 


There is a maximum of 15 search 
terms, 


图 13-53 IEL 数据 库 的 命令 检索 实例 


入 唯一 的 检索 号 ,也 可 以 在 title 中 输入 关键 词 或 短语 查询 。 通 过 索引 查询 一 定 主 题 ,可 
以 洞察 其 研究 脉络 、 研 究 者 之 间 的 相互 影响 关系 及 其 研究 趋势 ,这 对 于 自身 的 研究 探索 与 
研究 创新 有 很 好 的 参考 价值 。 

(4) 检索 举例 。 在 高 级 检索 中 用 network、security、algorithm 为 检索 词 ,它们 之 间 用 
逻辑 与 “AND” 关 系 , 上 且 network、 security 出 现在 Document Title 位 置 ,进行 检索 。 见 
图 13-54。 


i 


ENTER KEYWORDS OR PHRASES, SELECT FIELDS, AND SELECT OPERATORS 


Note: Refresh page to reflect updated preferences 


Search : @Metadata Only OFull Text & Metadata © 


network |in[Document Titie v 
AND Y][security |in [Document Tite v| 引 | 
AND | [algorithm |in [Abstract ES 


Ee me GE 
图 13-54 IEL 数据 库 高 级 检索 实例 一 


然后 获得 如 下 检索 结果 共 542 项 所 需 信息 即 “网 络 安全 算法 ”方面 的 学 术 论文 ,使 用 
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sort by 对 检索 结果 数据 进行 排序 (包括 相关 性 排序 .最 新 更 新 排序 .最 高 被 引 排序 等 ) 。 
为 了 参考 相关 信息 ,一 般 选择 “Most Cited” 排 序 , 查看 一 些 学 术 价 值 高 的 论文 。 见 
图 13-55。 
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图 13-55 
从 图 13-55 中 可 以 看 出 排 在 第 一 的 学 术 论文 被 引用 次 数 为 41 次 ,然后 进一步 查看 其 英 

文 , 可 以 用 网 页 或 PDF 两 种 格式 查看 原始 全 文 内 容 , 查 看 原文 的 实例 如 图 13-56 所 示 。 
[Xplore* pe ler 了 


上 


Hybrid Cooperative Beamforming and Jamming 
for Physical-Layer Security of Two-Way 
Relay Networks 


Hui-Ming Wang, Memper IEEE, Miao Luo, Qinye Yin, and Xiang-Gen Xia, Fellow, JIEEE 


Abstract— In this paper, we propose a hybrid cooperative I. INTRODUCTION 


lbeamforming and jamming scheme to enhance the physical-layer 


|security of a single-antenna-equipped two-way relay network in 
lthe presence of am eavesdropper. The basic idea is that in both 
[cooperative transmission phases, some intermediate nodes help 
lto relay signals to the legitimate destination adopting distributed 
lbeamforming, while the remalning nodes jam the eavesdropper, 


T IS believed that the security issue of wireless com- 
munications is more challenging due to the fundamental 
characteristics of the openness of the wireless medium., In 
this context. physical-layer security. or information-theoretic 


图 13-56 


IEL 数据 库 高 级 检索 实例 三 
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13.5.3 EBSCO 学 术 资 源 平台 检索 

(1) EBSCO 学 术 资 源 检索 平台 概述 。EBSCO 学 术 资 源 检索 平台 是 美国 EBSCO 公 
司 的 全 文 数据 库 检 索 系 统 , 目 前 有 全 文 数据 库 19 种 ,其 中 最 主要 的 有 以 下 四 种 。 

@ 学 术 期 刊 全 文 数 据 库 (Academic Source Complete,ASC) : 数据 库 收录 期 刊 12 800 
多 种 ,包括 8700 多 种 全 文 期 刊 (其 中 7613 种 为 专家 评审 期 刊 ),553 种 非 期 刊 类 全 文 出 版 
物 ,收录 年 限 : 1887 年 至 今 。 

@ 商业 资源 数据 库 (Business Source Complete) 。 该 数据 库 收 录 3319 种 期 刊 索 引 及 
摘要 ,其 中 2300 种 为 全 文 期 刊 (包括 1100 多 种 同行 评审 全 文 期 刊 ) 及 10 000 多 种 非 刊 全 
文 出 版 物 (如 案例 分 析 、 专 著 、 国 家 及 产业 报告 等 ) ,收录 年 限 : 1886 年 至 今 。 

@ Communication & Mass Media Complete(CMMC ,大众 传媒 全 文 数据 库 )。 它 收 
录 著 名 学 协会 及 出 版 社 的 820 多 种 期 刊 ,其 中 500 种 为 全 文 收录 。 

@ EBSCO 电子 图 书 (原名 : NetLibrary 电子 图 书 )。 它 提供 30 多 万 种 电子 图 书 , 涉 
及 各 个 主题 并 涵盖 多 学 科 领 域 。 除 英文 电子 书 外 ,还 收录 法 文 、 德 文 . 日 文 和 西班牙 文 。 
除 提供 全 文 的 电子 书 外 ,还 提供 16 000 多 种 有 声 电子 图 书 。EBSCO eBooks 电子 书 可 以 
直接 进行 检索 ,不 需要 安装 任何 阅读 软件 即 可 阅读 ,保存 和 打印 ,每 次 均 可 保存 和 打印 。 

EBSCO 学 术 资 源 检索 平台 的 数据 库 选择 见 图 13-57。 

(2) EBSCO 学 术 资 源 基 本 检索 。 直 接 输 入 检索 词 即 可 ,下面 是 用 “Network intrusion 
detection”( 网 络 入 侵 检 测 ) 为 检索 词 的 基本 检索 结果 ,包括 发 挥 结果 论 文 总 数 、 相 关 性 排 
序 等 内 容 。 见 图 13-58。 

(3) EBSCO 学 术 资 源 高 级 检索 。 为 了 便于 精确 检索 ,用 户 可 以 根据 需要 增加 或 减少 
检索 词 的 输入 数量 ,而 且 可 以 对 每 一 个 检索 项 设 定 检索 字段 (所 有 文本 、 作 者 、 标 题 等 ), 同 
时 选择 布尔 逻辑 、 检 索 的 位 置 . 返 回 结果 的 日 期 等 丰富 的 高 级 检索 功能 。 见 图 13-59 。 


13.5.4 Wiley 在 线 图 书馆 检索 

Wiley 出 版 商 于 1807 年 创立 于 美国 ,是 全 球 历史 最 悠久 、 最 知名 的 专业 学 术 出 版 商 
之 一 ,享有 世界 第 一 大 独立 的 学 术 图 书 出 版 商 和 第 三 大 学 术 期 刊 出 版 商 的 美誉 。Wiley 
在 线 图 书馆 建设 了 世界 上 最 广泛 的 多 学 科 在 线 服务 数据 库 , 包 括 农业 、 工 业 、 建 筑 、 化 学 、 
商业 与 经 济 、 生 命 与 健康 、 计 算 机 科学 \ 物 理科 学 、 环 境 科学 、 宇 航 、 数 学 与 统计 学 、 心 理学 
等 社会 与 人 文科 学 ,提供 访问 的 资源 总 量 超过 600 万 篇 文章 (资源 来 自 1500 多 种 期 刊 )， 
以 及 18 000 本 在 线 图 书 、 数 百 本 参考 书 、 实 验 室 指南 和 数据 库 。Wiley 在 线 图 书馆 由 于 其 丰 
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回 GreenFILE 目 


选择 数据 库 ? 
详细 视图 (包含 标题 列表 ) 选择 其 他 EBSCO 服务 


回 全 选 虞 销 全 选 ”“ 注 ， 选 择 全 部 数据 库 进行 搜索 可 能 会 延长 响应 时 | 间 . 


[| 
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回 ERIC 目 
回 Professional Development 
回 MEDUNE 目 ColsctionB 
Newspeper Soura® 回 Health Source - Consumer 
Edition 男 


回 Regional Business News 


回 Library, Information Science & 
Technology Abstracts 目 


Teacher Reference Center ® 


Encyclopedia 目 
回 Middle Search Plus 目 
回 TOPICsearch 目 


回 MAS Ultra - School Ediion 目 


European Views of the Americas- 
1493to 1750 目 


回 EBSCO eClassics Collection 
(EBSCOhost) 目 


American Doctoral Dissertations, 
1933 - 1955 目 


图 13-57 EBSCO 学 术 资源 检索 平台 的 数据 库 选 择 


正在 检索 : Academic Search Complete, 显示 全 部 选择 数据 库 
EBSCOnoy | Network intrusion detection x 司 
基本 检索 ”高 级 检索 ”搜索 历史 记录 ， 


精确 搜索 结果 
当前 检索 


布尔 逻辑 /词组 : 


Network intrusion 
detection 


限制 

口 全 文 

口 有 参考 

口 学 术 (同行 评审 ) 期 和 
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相关 性 ~ 页 面 先 项” | 忆 共 享 
检索 结果 :1-10 ( 共 1,037 个 ) 


1 MVPSys: Toward practical multi-view 周 加 
based false alarm reduction system in 
network intrusion detection. 
村 By Li, Wenjuan; Meng, Weizhi Luo, Xiapu; Kwok, Lam For. 
品 Computers & Security. Jul2016, Vol 60, p177-192 16p. DOL 
学 术 期 刊 10.10161 cose 2016.04.007.， 数据库- Business Source Complete 
Network intrusion detection systems (NIDSs) have been 
developed for over twenty years and have been widely deployed in 
computer networks to detect a variety of network attacks. But one 
of the mal 
主题 : COMPUTER network security; FALSE alarms; INTRUSION 
detection systems (Computer security) MACHINE learning; 
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520 /大 学 生 信息 检索 素养 教程 


多 正在 检索 : Academic Search Complete, 显示 全 部 | 选择 数据 库 
| 地 &C- ** | #* 
is 选择 一 个 字段 (| 
o | [二 TS -| 处 
基本 检索 高 级 检索 搜索 历史 记录 。 | 选择 “个 字段 ( 林 选 ) 
| Time 
检索 选项 | Au 人 
也 标题 
SU 主题 语 
检索 模式 和 扩展 条 件 ee 
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ns |ISISSN 加 
〇 查 术 全 部 检索 词语 | 
〇 查 术 任 何 检 棕 词语 a ee we 
吕 智能 文本 检索 提示 
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上 有 参考 
再 口 
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图 13-59 ”EBSCO 学 术 资源 检索 平台 的 高 级 检索 视图 


富 的 学 科 资 源 属性 ,我 国 很 多 高 校 图 书馆 都 购买 了 全 部 或 部 分 在 线 资源 。 

(1) Wiley 在 线 图 书馆 一 般 检 索 。 一 般 检索 默认 在 全 部 资源 (all content) 中 检索 ,也 
可 以 选择 具体 的 出 版 刊物 名 称 (publication titles) 即 在 具体 的 资源 库 中 检索 ,具体 的 出 版 
物资 源 名 称 可 以 在 页 面 顶部 模块 Publications 中 查看 ,也 可 以 查看 其 目录 数据 库 (browse 
by subject) 的 具体 内 容 。 见 图 13-60。 

(2) Wiley 在 线 图 书馆 高 级 检索 。 在 高 级 检索 中 ,默认 为 三 个 检索 词 ,可 以 根据 需要 
用 Add another row 来 增加 检索 项 ,检索 词 之 间 依然 是 典型 的 布尔 逻辑 关系 (与 .或 , 非 ) 
组 配 ,同时 可 以 限制 信息 的 时 间 范 围 和 检索 词 的 位 置 限定 (文章 标题 ,全 文 ,全 部 字段 等 )。 
图 13-61 是 用 三 个 检索 词 的 检索 实例 。 

图 13-62 是 用 三 个 检索 词 page、ranking、algorithm 进行 逻辑 组 配 “page in Article 
Title AND ranking in FullText NOT algorithm in All Fields” 所 获得 的 检索 结果 。 


13.5.5 其 他 典型 期 刊 学 术 论文 检索 系统 
1. SpringerLink 电子 期 刊 
德国 施 普 林 格 (Springer-Verlag) 是 世界 上 著名 的 科技 出 版 集团 ,通过 SpringerLink 
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图 13-60 Wiley 在 线 图 书馆 一 般 检 索 视 图 
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图 13-61 Wiley 在 线 图 书馆 高 级 检索 实例 一 
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Search Results 
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图 13-62 Wiley 在 线 图 书馆 高 级 检索 实例 二 


系统 提供 其 学 术 期 刊 及 电子 图 书 的 在 线 服 务 ,这些 期 刊 是 科研 人 员 的 重要 信息 源 。2002 年 
7 月 开始 ,Springer 公司 在 国内 开通 了 SpringerLink 服务 。SpringerLink 所 有 资源 划分 为 
12 个 学 科 : 建筑 学 .设计 和 艺术 ;行为 科学 ;生物 医学 和 生命 科学 ;商业 和 经 济 ;化 学 和 材 
料 科学 ;计算 机 科学 ;地 球 和 环境 科学 ;工程 学 ;人 文 . 社 科 和 法 律 ; 数 学 和 统计 学 ;医学 ; 物 
理 和 天 文学 。 原 Kluwer 出 版 集团 出 版 的 电子 期 刊 已 合并 至 该 平台 ,另外 也 可 以 通过 
Kluwer 本 地 服务 器 进行 访问 。SpringerLink 电子 期 刊 目 前 的 期 刊 论文 资源 总 量 达 到 
580 多 万 篇 。 

2. ProQuest 学 术 期 刊 数据 库 

学 术 研 究 图 书馆 (Academic Research Library,ARL) : 综合 参考 及 人 文 社会 科学 期 刊 
论文 数据 库 ,收录 近 4000 种 综合 性 期 刊 和 报纸 的 文摘 /索引 ,其 中 2365 种 是 全 文 期 刊 , 可 
检索 1971 年 以 来 的 文摘 和 1986 年 以 来 的 全 文 。 

数据 库 涵 盖 的 学 科 包 括 商业 与 经 济 .教育 .保护 服务 /公共 管理 .社会 科学 与 历史 、 计 
算 机 、 科 学 .工程 /工程 技术 .传播 学 ,法律 .军事 文化 .医学 .卫生 健康 及 其 相关 科学 .生物 
科学 /生命 科学 .艺术 .视觉 与 表演 艺术 .心理 学 .宗教 与 神学 .哲学 .社会 学 及 妇女 研究 等 
领域 。 

3. SAGE 全 文 电子 期 刊 

SAGE 公司 于 1965 年 成 立 于 美国 ,最 初 以 出 版 社会 科学 类 学 术 出 版 物 起 家 , 自 1995 年 
以 来 ,也 开始 陆续 出 版 科学 、 技 术 、 医 学 (STM) 三 大 领域 的 文献 。 至 今 为 止 已 经 与 180 多 
家 专业 的 学 术 协 会 和 组 织 建立 了 紧密 的 合作 伙伴 关系 (主要 为 欧美 协会 和 组 织 )。 目 前 
SAGE 连续 出 版 高 品质 学 术 期 刊 460 多 种 ,每 年 出 版 12 一 15 种 百科 全 书 和 500 余 种 新 
书 。SAGE 出 版 的 学 术 期 刊 为 100% 同 行 评审 ,其 中 46% 的 期 刊 被 2005 年 的 Thomson 
Scientific Journal Citation Report(SSCI 以 及 SCI) 收 录 , 另 有 51 种 在 其 所 在 学 科 类 别 中 
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排名 在 前 十 位 。 

SAGE Premier: 包含 SAGE 出 版 的 452 种 高 品质 学 术 期 刊 全 文 ,涉及 社会 及 人 文科 
学 .医药 、 科 技 理工 等 40 个 学 科 。 收 录 年 限 是 1999 年 至 今 ,访问 平台 为 SAGE Journals 
Online(SJO)。 用 户 访问 地 址 为 : http://online. sagepub. com/。 

SAGE Deep Backfile: 包含 SAGE 出 版 的 300 多 种 高 品质 学 术 期 刊 的 全 文 (过 刊 )， 
收录 年 限 是 该 期 刊 的 第 1 卷 第 1 期 (如 有 ) 至 1998 年 ,访问 平台 为 SAGE Journals Online 
(SJO)。 用 户 访 问 地 址 为 : http://online. sagepub. com/。 

4. Russian Library of Science 俄罗斯 在 线 科学 图 书馆 

俄罗斯 在 线 科学 图 书馆 (RLoS) 嘻 括 了 俄罗斯 及 前 独 联 体 国家 最 高 水 平 的 学 术 机 构 
和 学 协会 近年 来 所 发 表 的 最 高 水 平 的 文章 和 期 刊 论文 ,所 译 期 刊 全 部 经 同行 评议 、 专 家 翻 
译 。 通 过 SpringerLink 平台 提供 200 多 种 英文 版 俄罗斯 科学 期 刊 ,其 中 的 100 多 种 来 自 
MAIK Nauka 出 版 社 ( 是 著名 的 俄罗斯 科学 院 御用 出 版 社 ), 另 有 45 种 重要 科技 期 刊 来 源 
于 Allerton Press 出 版 社 ( 自 2005 年 1 月 起 收录 ), 有 144 种 期 刊 为 JCR 来 源 刊 。 

5. Psychology & Behavioral Sciences Collection 

Psychology & Behavioral Sciences Collection 是 一 个 综合 型 数据 库 , 包 含有 关 精 神 和 
行为 特征 、 精 神 病 学 和 心理 学 、 心 理 过 程 、 人 类 学 以 及 观察 和 实践 方法 的 信息 。 它 是 世界 
上 最 大 的 全 文 心理 数据 库 , 收 录 了 563 种 期 刊 的 全 文 。 

6. WorldSciNet 电子 期 刊 

WorldSciNet 为 新 加 坡 World Scientific Publishing Co. 电子 期 刊 发 行 网 站 ,目前 提供 
107 种 全 文 电子 期 刊 ,涵盖 数学 物理、 化 学 、 生 物 、 医 学 材料、 环境 .计算 机 、 工 程 、 经 济 、 
社会 科学 等 领域 。 

7. LWW 医学 电子 期 刊 全 文 数据 库 

OVID Technologies 公司 是 世界 著名 的 数据 库 提供 商 ,于 2001 年 6 月 与 美国 银 盘 
(SilverPlatter Information) 公 司 合 并 ,组 成 全 球 最 大 的 电子 数据 库 出 版 公司 。 目 前 包含 
生物 医学 的 数据 库 有 临床 各 科 专 著 及 教科 书 、 循 证 医学 .MEDLINE、EMBASE 以 及 医学 
期 刊 全 文 数 据 库 等 。OVID 全 文 期 刊 库 (Journals@ Ovid) 提供 60 多 个 出 版 商 出 版 的 科 
学 .技术 及 医学 期 刊 1000 多 种 ,其 中 包括 Lippincott, Williams & Wilkins 出 版 社 出 版 的 
期 刊 。 

Lippincott, Williams & Wilkins(LWW) 是 世界 上 第 二 大 医学 出 版 社 ,其 临床 医学 及 
护理 学 尤为 突出 。LWW 电子 期 刊 全 文 数据 库 收 录 235 种 医学 期 刊 ,其 中 154 种 为 核心 
刊 (90% 为 英 、 美 核心 刊 ), 约 150 种 刊 被 ISI 收录 , 且 影 响 因 子 较 高 。 回 溯 期 最 早 至 
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1993 年 。 

8. Kluwer Online 电子 期 刊 

荷兰 Kluwer Acdemic Publisher 是 具有 国际 性 声誉 的 学 术 出 版 商 , 它 出 版 的 图 书 、 期 
刊 一 向 品质 较 高 , 备 受 专家 和 学 者 的 信赖 和 赞誉 。Kluwer Online 是 Kluwer 出 版 的 800 
余 种 期 刊 的 网 络 版 ,专门 基于 互联 网 提供 Kluwer 电子 期 刊 的 查询 .阅览 服务 。 

面向 CALIS 院 校 提 供 服务 的 Kluwer Online 镜像 服务 站 在 北京 大 学 图 书馆 建立 并 
开通 ,通过 该 镜像 站 ,高 校 师 生 用 户 可 以 继续 使 用 Kluwer Acdemic Publisher 的 800 种 电 
子 刊 ,免费 进行 检索 、 阅 览 和 下 载 全 文 。Kluwer Online 电子 期 刊 涵盖 20 多 个 学 科 专 题 : 
Biological Sciences(73 种 )、Law(59 种 )、Medicine(71 种 )、Psychology(57 种 )、Physics 
(14 种 )、Philosophy (35 种 )、Astronomy (7 种 )、Education (22 种 )、Earth Sciences 
(18 种 )、Linguistics (8 种 )、Mathematics (33 种 )、Social Sciences (37 种 )、Computer 
Sciences(35 种 )、Business Administration (15 种 )、Engineering (19 种 )、Management 
Science(4 种 )、Electrical Engineering (13 种 )、Archaeology (5 种 )、Materials Sciences 
(13 种 )、Humanities(2 种 ) .Environmental Sciences (8 种 )、Chemistry(23 种 ) 。 

9. HeinOnline 法 律 全 文 数据 库 

HeinOnline 法 律 数据 库 是 美国 著名 的 法 律 全 文 数 据 库 (网 址 : www. heinonline. 
org) ,涵盖 全 球 最 具 权 威 性 的 近 1300 种 法 律 研究 期 刊 ,同时 还 包含 675 卷 国际 法 领域 权 
威 巨 著 ,100 000 多 个 案例 ,1000 多 部 精品 法 学 学 术 专 著 和 美国 联邦 政府 报告 全 文 等 。 该 
数据 库 所 收录 的 期 刊 是 从 创刊 开始 ,大 多 数 资 源 已 更 新 到 前 一 年 ,是 许多 学 术 期 刊 回 溯 查 
询 的 重要 资源 , 曾 获 得 国际 法 律 图 书馆 协会 (IALL)、 美 国法 律 图 书馆 协会 (AALL) 等 颁 
发 的 奖项 。 

10. Cambridge Journals Online 

剑桥 大 学 出 版 社 (Cambridge University Press,CUP) 成 立 于 1514 年 ,是 世界 上 历史 
最 悠久 的 出 版 社 。 该 社 出 版 220 多 种 学 术 期 刊 ,涉及 自然 科学 、 人 文 社会 科学 及 医学 各 个 
学 科 , 大 部 分 期 刊 网 络 版 回溯 到 1997 年 。 

2008 年 ,剑桥 大 学 出 版 社 出 版 223 种 学 术 期 刊 ,其 中 134 种 人 文 社 科 类 期 刊 ,105 种 
自然 科学 类 期 刊 ,有 17 种 文理 交叉 的 期 刊 。 总 计 有 132 种 期 刊 被 Web of Science 收录 ， 
SCIE 收录 61 种 .SSCI 收录 45 种 .A&HCI 收录 38 种 ,其 中 有 16 种 刊 被 重复 收录 。 以 下 
根据 国内 大 学 的 教学 和 科研 情况 ,分 为 自然 科学 (STM)、 人 文 社 科 (HSS)、 医 学 
(Medicine) 和 工程 (Engineering) 四 大 学 科 数 据 库 。 

(1) 自然 科学 类 : 总 计 105 种 ,其 中 63% 被 SCI 收录 ,学 科 包 括 数 学 、 物 理 、 农 学 、 生 
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命 科 学 、 动 植物 学 、 计 算 机 科学 、 地 球 和 大 气 学 、 科 学 史 等 。 其 中 以 数学 、 环 境 与 保护 生物 
学 农业、 神经 学 与 心理 学 见长 。 

(2) 人 文 社 科 类 : 总 计 134 种 ,其 中 55% 的 期 刊 被 SSCI 或 A&HCI 收录 。 学 科 包 括 
历史 、 地 域 研 究 、 英 语 语言 学 等 。 其 中 以 地 域 研究 、 历 史 、 政 治学 和 语言 学 见长 。 

(3) 医学 类 : 剑桥 大 学 出 版 社 总 计 有 47 种 医学 期 刊 ,其 中 28 种 被 SCI 收录 , 占 总 数 
的 60%。 其 中 神经 学 和 营养 学 非常 出 色 。 

(4) 工程 技术 类 : 总 计 有 39 种 期 刊 ,其 中 有 25 种 被 SCI 收录 , 占 总 数 的 65%。 


本 章 小 结 


图 书 是 以 传播 知识 为 目的 ,用 文字 或 其 他 信息 符号 记录 于 一 定形 式 的 材料 之 上 的 著 
作物 ;图 书 是 人 类 社会 实践 的 产物 ,是 一 种 特定 的 不 断 发 展 着 的 知识 传播 工具 。 图 书 的 基 
本 构成 要 素 有 被 传播 的 知识 信息 、 有 记录 知识 内 容 的 文字 或 图 像 的 信号 有 存储 与 传播 知 
识 信息 的 物质 载体 ,有 图 书 的 特定 生成 技术 和 工艺 。 图 书 的 含义 十 分 丰富 ,图 书 一 般 指 书 
籍 , 由 出 版 社 出 版 的 相对 独立 的 出 版 物 ; 有 特定 的 书 名 和 著 ( 编 ) 者 名 ;每 种 书 有 不 同 的 篇 
幅 (印张 ) 和 不 同 的 定价 ,并 标 有 国际 图 书 标准 书号 ISBN。 图 书 主要 分 为 社会 科学 和 自然 
科学 两 大 类 。 本 章 所 指 的 是 其 狭义 概念 即 书籍 , 即 大 学 生 能 够 通过 图 书馆 或 网 络 查询 并 
获取 的 纸 质 与 数字 化 图 书 。 

期 刊 也 称 杂 志 , 是 定期 或 不 定期 的 连续 出 版 物 。 每 期 版 式 基 本 相同 ,有 固定 名 称 。 用 
卷 .期 或 年 .月 顺序 编号 出 版 ,有 专业 性 和 综合 性 两 大 类 。 期 刊 是 由 杂志 社 定 期 出 版 的 连 
续 出 版 物 ,如 半月 刊 . 月 刊 . 双 月 刊 和 季刊 等 。 刊 物 有 固定 的 名 称 、 固 定 的 印张 和 固定 的 定 
价 , 并 使 用 国际 标准 期 刊 号 (连续 出 版 物 号 )ISSN; 可 设 有 多 个 栏目 ,版 式 比较 活泼 ,内 容 
包罗 万 象 , 并 可 做 广告 。 刊 物 出 版 后 一 般 不 重印 ,但 可 制作 合 订 本 。 期 刊 内 容 一 般 比 较 
杂 , 故 又 称 杂 志 , 期 刊 分 专业 性 和 综合 性 两 大 类 。 本 书 所 指 的 期 刊 是 对 大 学 生 的 自主 学 
习 、 协 作 学 习 \ 探 究 性 学 习 有 辅助 作用 的 学 术 期 刊 。 

图 书 与 期 刊 的 主要 区 别 是 期 刊 使 用 的 是 ISSN (International Standard Serial 
Number,ISSN), 即 国际 标准 期 刊 号 ,俗称 连续 出 版 物 号 。 图书 使 用 的 是 ISBN ( 
International Standard Book Number,ISBN) , 即 国际 标准 图 书号 。 

本 章 主要 以 检索 应 用 与 检索 实例 为 主 ,重点 说 明了 大 型 中 文 图 书目 录 检 索 系统 (中 国 
国家 图 书馆 联机 公共 目录 查询 系统 .CALIS 联合 目录 公共 检索 系统 .北京 大 学 图 书馆 公 
共 查 询 系 统 和 清华 大 学 图 书馆 馆藏 目录 检索 系统 ) 和 典型 中 文 数字 图 书 ( 即 超星 数字 图 
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书 ) 的 检索 应 用 。 着 重 阐述 了 典型 中 文学 术 期 刊 论文 检 索 系 统 C(CCNKI 中 国学 术 期 刊 网 和 
维普 中 文科 技 期 刊 ) 以 及 典型 外 文 电子 图 书 检索 系统 (CADAL 外 文 图 书 、 世 界 电 子 图 书 
馆 、ebrary 电子 图 书馆 和 OCLC FirstSearch 等 ) 的 检索 应 用 。 进 一 步 阐述 了 典型 外 文学 
术 期 刊 检 索 系统 的 检索 应 用 ,包括 Web of Science IEL、EBSCO 学 、Wiley、SpringerLink 
和 ProQuest 等 学 术 期 刊 网 络 数据 库 的 检索 应 用 。 


Eo 中 世上 oo 性 


本 章 思考 与 练习 题 


. 举例 说 明 你 所 在 高 校 图 书馆 的 主要 图 书 资源 馆藏 内 容 与 特色 。 

. 举例 说 明 你 所 在 高 校 图 书馆 的 主要 学 术 期 刊 资源 馆藏 内 容 与 特色 。 

. 什么 是 图 书 和 学 术 期 刊 ? 分 别 有 哪 些 主要 类 型 ? 

. 有 哪些 主要 国内 大 型 中 文 图 书目 录 检 索 系统 ? 

. 有 哪些 主要 国外 大 型 外 文 图 书目 录 检 索 系统 ? 

. 举 一 个 实例 说 明 你 所 在 高 校 图 书馆 馆藏 目录 检索 系统 的 一 般 检 索 应 用 方法 。 


结合 你 自身 的 专业 信息 需求 实际 ,说 明 中 国 国家 图 书馆 联机 公共 目录 查询 系统 的 


高 级 检索 结果 。 


8. 
9. 


10. 
加 
异同 点 。 
1 
lL 
14. 


如 何 。 


1s, 
16; 
和 
18. 


举例 说 明 中 国 国家 图 书馆 联机 公共 目录 查询 系统 的 通用 命令 语言 检索 应 用 。 
举例 说 明 CALIS 联合 目录 公共 检索 系统 的 一 般 检 索 方 法 。 

举例 说 明 CALIS 联合 目录 公共 检索 系统 的 高 级 检索 方法 。 

举例 说 明 清华 大 学 图 书馆 图 书 公共 查询 系统 与 北京 大 学 图 书馆 公共 查询 系统 的 


举例 说 明 典型 中 文 数字 图 书 检索 一 一 超星 数字 图 书馆 的 多 种 检索 功能 。 
典型 中 文学 术 期 刊 论文 检索 平台 有 哪些 ? 
举 一 实 例 说 明 典 型 中 文学 术 期 刊 论文 检索 系统 的 高 级 检索 功能 的 应 用 查 准 率 


典型 外 文 电子 图 书 检索 系统 有 哪些 ? 

典型 外 文 电子 学 术 期 刊 检索 系统 有 哪些 ? 

举例 说 明 OCLC FirstSearch 的 电子 图 书 与 电子 期 刊 检索 的 差异 。 
举例 说 明 IEL 数据 库 检 索 与 Web of Science 在 高 级 检索 方面 的 异同 。 
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